谷歌的Nano Banana模型自發布以來,僅用一周時間就迅速引爆全球社區,成為討論熱度最高的新銳代表。就在昨天,字節也正式推出了Seedream 4.0,高調在「即夢」平臺全量上線。
一邊是國際大廠的新銳之作,另一邊是國產模型的頂尖代表,兩位“選手”幾乎前后腳站上擂臺卷生卷死,氣氛瞬間拉滿。
為了更直觀地呈現兩款模型的真實水平,我們特別設計了15道考題,涵蓋文本生成、邏輯推演、圖像處理、創意表達等多個維度。
廢話不多說,讓我們通過這份詳細的答卷來一探究竟。
實測部分
01
嘿!你的悟空掉了!
Prompt:手機上坐著一個黑神話悟空
這波題考的是這兩個模型,能不能認出游戲圈頂流“悟空”?還得有想象力,讓他合理地“坐”在手機上。
參考圖如下:
先看即夢4.0,如果你仔細放大看,能看出來即夢4.0生成的悟空坐著的姿勢很真實,能準確捕捉《黑神話:悟空》的美術風格和角色神韻。
相比之下,Nano Banana在人物頭身比例的精準度上略有失衡,顯得不夠協調。
本輪小結: 即夢4.0在寫實還原與場景融合上小勝一籌
02
2D到3D的風格轉換
Prompt:將圖片中所有小怪獸,做成3D模型
這是一個典型的“圖生圖”測試,核心在于考察模型的圖像理解、風格遷移和3D空間構建能力。
模型需要首先識別出圖片中的“小怪獸”主體,然后將其從2D平面設計稿“翻譯”成立體、飽滿的3D模型,并賦予其合適的材質和紋理。
即夢4.0本身自帶強烈的模型和手辦質感,非常適合這個主題。它能生成下面這樣類似“泡泡瑪特”風格的潮玩或精致的游戲模型,色彩鮮艷,造型可愛且富有設計感,主要是一致性很好。
Nano Banana在理解上出現了偏差。它似乎將指令理解為:將整體畫面進行3D化“浮雕”處理,而非將每個怪獸獨立建模,最終生成了一張立體感貼畫,未能完成核心任務。
本輪小結: 即夢4.0對3D指令的理解和執行能力稍強一些。
03
中國古畫的再創作
Prompt:給這幅中國古畫的右上角,畫幾行白鷺。
這回主要考驗AI能不能在中國風古畫上加戲,模型不僅要畫出“白鷺”,更重要的是要讓這些白鷺完美融入古畫的意境中,無論是筆觸、墨色還是構圖,都不能有違和感。
參考圖如下:
左側為即夢4.0,右側為Nano Banana。出乎意料,這一輪兩者都表現不差。它們都沒有生硬地植入寫實白鷺,而是模仿了原作的筆觸和意境,并融入了自身的理解。添加的白鷺元素與背景渾然一體,沒有明顯的違和感。
本輪小結: 平分秋色,都展現了不錯的多風格藝術融合能力。
04
星艦印滿比卡丘
Prompt:將星艦上印滿比卡丘。
這是一個考驗紋理應用、透視理解和IP識別的綜合案例。模型需要將“比卡丘”這個2D形象,作為紋理“貼”在“星艦”這個復雜的3D曲面上,并處理好透視、變形和光影變化,同時要保證比卡丘形象的準確性。我隨便找來了一張星艦的圖片:
這是即夢4.0生成的,在3D曲面物體上,比卡丘的元素融合確實很好。比卡丘紋理在星艦不同曲面(如機翼、機身)上的貼合程度,基本不存在不自然的拉伸或突出星艦本身的空間。
下面這具有視覺沖擊力的是Nano Banana生成的,比卡丘貼的嚴絲合縫。能看得出來,“比卡丘”和“星艦”都是Nano Banana舒適區內的元素,它能生成視覺沖擊力極強的畫面。
相比之下,Nano Banana的寫實渲染能力更強一下,會細致地處理每一個比卡丘在不同角度下的形態,讓整個涂裝看起來很“真實”。
本輪小結: 兩者都出色完成任務。Nano Banana在視覺效果和藝術氛圍更好一些。
05
手繪手帳風格
Prompt:手帳手繪風格,介紹Transformer是什么?魚香肉絲怎么做?
“手帳風”是一種集插畫、貼紙、文字等多種元素于一體的拼貼藝術。模型需要理解并復現這種看似隨意卻充滿設計感的雜亂美學。
即夢4.0的表現很不錯。生成的中文文字清晰準確,幾乎沒有錯誤。無論是解釋Transformer架構的圖文排版,還是魚香肉絲的食材圖鑒,都細節滿滿,風格統一,實用性與美觀度兼備。
尤其是下面的魚香肉絲制作指南,看得出來對細節的把控很到位,整體所有食材的手繪圖細節都還不錯。
Nano Banana在趣味性上稍遜一籌。但其優勢在于對復雜元素的組織能力,在介紹Transformer的頁面中,它運用了更多樣、更復雜的圖形元素來構建畫面,視覺層次更豐富。
本輪小結: 即夢4.0在視覺上更可愛些,Nano Banana則在圖形元素的復雜組合上更有能力。
06
Sam Altman和Elon Musk 合影
Prompt:讓他倆合影
這是一個名人肖像融合的經典測試??简瀮蓚€AI圖片模型,在生成合影時處理光線、表情和身體姿態的自然度。
在這一個測試里,相比Nano Banana,即夢4.0的表現會更加自然一下,兩個人仿佛“世紀大和解”一樣。
只是,啊,喂!為什么Sam Altman和Elon Musk的臉部的元素有點趨同了?
而在Nano Banana的生成結果中,二者還是像我在參考圖中提供的元素那樣,保持動作不變,很不自然。人物如同被簡單地“摳圖”并置,缺乏真實的互動感。
本輪小結: 即夢4.0在營造自然氛圍上更優,但面部細節仍需打磨。
07
品牌元素的精準植入:OpenAI商標
Prompt:將多張OpenAI商標圖印在Elon Musk的黑色西服上。
這個測試,與星艦案例類似,但更考驗在衣物褶皺上的紋理貼合能力。黑色西服有明暗變化和布料褶皺,模型需要讓商標圖案,根據這些物理變化產生自然的光影和透視形變。
OpenAI商標圖如下:
二者相比,硬要說的話,即夢4.0將OpenAI元素融入Elon Musk的西服后,產生的效果看起來更有設計感一些,但是像是西服的袖口位置,并沒有被渲染到:
相反,Nano Banana更加忠實于提示詞,將OpenAI的商標順著西服的褶皺印的滿滿當當的。Logo會根據衣物的褶皺產生自然的扭曲。
本輪小結: Nano Banana在指令的忠實度和技術實現上更勝一籌。
08
Elon Musk的手辦
接下來,我們把上面Nano Banana生成的圖做一個當下最流行的手辦模型。
Prompt:使用nano-banana模型,制作圖片中角色的1/7比例商業手辦,風格為寫實,并置于真實環境中。手辦擺放在電腦桌上,配有一塊 無文字的圓形透明亞克力底座。電腦屏幕上顯示的是該手辦的ZBrush建模過程。電腦屏幕旁邊放置一只 萬代(BANDAI)風格的玩具包裝盒,包裝上印有原始插畫,呈現為二維平面插圖。請確保所有元素與參考圖嚴格一致。
二者的表現,可以說是不相上下。只是即夢4.0背后電腦屏幕上的3D模型稍微有些幻覺:
Nano Banana確實會更加嚴謹一些,從手辦的寫實風格,到包裝盒的平面插圖都執行的不錯:
本輪小結: 在復雜指令的執行上,Nano Banana的精準度略微領先。
09
多元素融合:換裝
下面我們來試試更多的元素融合。
Prompt:圖一的女性穿上圖二的搭配。
精準局部重繪是AI圖像編輯的核心功能。考驗的是模型在替換主體后,保持背景、光影、透視不變,并使新元素與環境無縫銜接的能力。
兩者在整體表現上都相當不錯,成功地將新服裝融合到人物身上,效果逼真自然。但在細節處理上,兩者都還有提升空間,例如對手腕配飾的理解和重繪都出現了一些偏差。
本輪小結: 整體打平,均屬于“說得過去”但未達完美的水平。
10
狗換成哈士奇
這個案例也是看兩個模型能不能精準重繪畫面中的某個元素。
Prompt:將男子的狗換成哈士奇。
這一輪,兩個模型都展現了成熟的圖像編輯能力,無論是寫實的哈士奇毛發,還是與環境的融合度,都處理得非常好,效果難分伯仲。
本輪小結: 再次平分秋色,均能高質量完成任務。
11
劍風傳奇漫畫上色
下面這個案例會更復雜些。非??简災P偷纳仙芰蛯?strong>特定藝術風格的理解。不僅僅是填色,好的AI上色需要理解,漫畫作者三浦建太郎原畫中的光影、材質和氛圍,用色彩來增強而非破壞原作的厚重感和力量感。
Prompt:給劍風傳奇的漫畫上色。
即夢4.0上色風格更偏向色彩夸張、對比強烈的美式漫畫,視覺沖擊力強。
Nano Banana對暗黑系的日漫風格理解顯然更深。它的上色方案很好地保留了原作的史詩感和陰郁氛圍。
本輪小結: Nano Banana對特定漫畫風格的理解和詮釋更勝一籌。
12
塞爾達傳說海報更改
下面這個案例測試模型對一個成熟、廣受歡迎的游戲IP藝術風格的掌握程度,以及在此基礎上的創意延展能力。
Prompt:將這張海報男主對面改成血月。
即夢4.0的生成結果更為震撼些,如果你仔細看左側男主,會發現即夢重新給他打上了一層高光。整體人物的3D感更強些。
Nano Banana更傾向于在原作基礎上進行細節增強或無痕的元素增減,保持海報的原汁原味。它并沒有使用很夸張的元素,去改變整體海報的感覺。
本輪小結: 即夢4.0的二次創作更夸張一點,但Nano Banana的表現更忠實于原海報,平分秋色。
13
塞爾達公主發型9宮格
兩個模型都很適合通過1張圖片,衍生出多種創意元素。
Prompt:根據我提供的參考圖片,生成9種不同的發型設計,并整合在同一張照片中展示。畫面需通過特寫視角,分別突出每一種發型的細節與特點,整體構圖統一、美觀。
參考圖如下:
不知為何,即夢4.0總是一張一張的生成,于是我將圖片拼接到了一起。它會生成各種角度和姿態的圖片,甚至出現了一些形態較為“詭異”的設計。
像第一排最左側第二張的那張圖是什么鬼!
Nano Banana表現更為穩定。它嚴格地保留了原圖的背景和人物姿態,僅針對發型進行多樣化設計,更忠實于提示詞和原有畫風,最終結果的風格一致性很強。
本輪小結: Nano Banana在保持一致性和遵循指令方面表現更優。
14
世界十大地標建筑等軸模型
這個測試,主要針對于模型對于特定建筑的識別能力和對“等軸測圖”這一特定繪畫風格的執行能力。“等軸模型”風格常見于模擬經營游戲或扁平化設計中,要求所有物體在統一的斜向視角下呈現,無近大遠小的透視。
Prompt:生成世界10大地標建筑的等軸模型
Emmmm怎么說呢,左側是即夢4.0,以一種非常“直白”的方式完成了任務,它將10個地標建筑分別生成為獨立的等軸模型,并嚴謹地配上了文字標簽,像是一份建筑圖鑒。
Nano Banana則將所有地標建筑融合在一張大圖里,創造了一個微縮景觀世界,整體更像是一個精美的模擬經營游戲資產。
本輪小結: 即夢4.0勝在信息清晰,Nano Banana勝在模型整合。
15
淘寶頁面精準元素修改
下面就是最后一個案例了,這是一個比較實用的商業應用場景測試。模型需要“讀懂”圖片上的文字和商品,理解畫面中各個元素的位置,并精準地修改圖片上的對應文字和數字,同時保持原有風格不變。
Prompt:沙拉醬+肉松大于等于95%,券后1.67
這次的結果就不像以上那些結果“難解難分”了,即夢4.0的表現明顯更好一些。它能夠識別出需要修改的文字區域,然后進行精準替換。同時完全不影響周圍的UI元素和商品圖像。
盡管多次嘗試,Nano Banana雖然能精準修改數字,但總會“順手”改變面包的形態,無法做到精準的局部控制。
本輪小結: 即夢4.0優勢很明顯,比較擅長復雜畫面的精準元素修改。
總結
經過15輪風格各異的“大考”,我們對即夢4.0和Nano Banana這兩位AI繪畫“選手”的實力畫像也變得愈發清晰。即夢4.0在寫實還原、創意設計和精準編輯方面,功力更深厚些。Nano Banana則更忠于提示詞、風格也更多變些。另一個親身體驗下來的直觀發現是:即夢4.0的生成速度真的很快,幾乎只要Google AI Studio或Gemini調用Nano Banana所需時間的一半。
不過,看完這場“神仙打架”,最大的感觸是:國產模型和國外大廠的差距,已經越來越小,甚至相持不下了。說實話,我已經提前預見到,2025年下半年,AI圖像生成模型的競爭只會更加白熱化,同時也會更加百花齊放。