谷歌的Nano Banana模型自發(fā)布以來(lái),僅用一周時(shí)間就迅速引爆全球社區(qū),成為討論熱度最高的新銳代表。就在昨天,字節(jié)也正式推出了Seedream 4.0,高調(diào)在「即夢(mèng)」平臺(tái)全量上線。
一邊是國(guó)際大廠的新銳之作,另一邊是國(guó)產(chǎn)模型的頂尖代表,兩位“選手”幾乎前后腳站上擂臺(tái)卷生卷死,氣氛瞬間拉滿。
為了更直觀地呈現(xiàn)兩款模型的真實(shí)水平,我們特別設(shè)計(jì)了15道考題,涵蓋文本生成、邏輯推演、圖像處理、創(chuàng)意表達(dá)等多個(gè)維度。
廢話不多說(shuō),讓我們通過這份詳細(xì)的答卷來(lái)一探究竟。
實(shí)測(cè)部分
01
嘿!你的悟空掉了!
Prompt:手機(jī)上坐著一個(gè)黑神話悟空
這波題考的是這兩個(gè)模型,能不能認(rèn)出游戲圈頂流“悟空”?還得有想象力,讓他合理地“坐”在手機(jī)上。
參考圖如下:

先看即夢(mèng)4.0,如果你仔細(xì)放大看,能看出來(lái)即夢(mèng)4.0生成的悟空坐著的姿勢(shì)很真實(shí),能準(zhǔn)確捕捉《黑神話:悟空》的美術(shù)風(fēng)格和角色神韻。

相比之下,Nano Banana在人物頭身比例的精準(zhǔn)度上略有失衡,顯得不夠協(xié)調(diào)。

本輪小結(jié): 即夢(mèng)4.0在寫實(shí)還原與場(chǎng)景融合上小勝一籌
02
2D到3D的風(fēng)格轉(zhuǎn)換
Prompt:將圖片中所有小怪獸,做成3D模型
這是一個(gè)典型的“圖生圖”測(cè)試,核心在于考察模型的圖像理解、風(fēng)格遷移和3D空間構(gòu)建能力。
模型需要首先識(shí)別出圖片中的“小怪獸”主體,然后將其從2D平面設(shè)計(jì)稿“翻譯”成立體、飽滿的3D模型,并賦予其合適的材質(zhì)和紋理。

即夢(mèng)4.0本身自帶強(qiáng)烈的模型和手辦質(zhì)感,非常適合這個(gè)主題。它能生成下面這樣類似“泡泡瑪特”風(fēng)格的潮玩或精致的游戲模型,色彩鮮艷,造型可愛且富有設(shè)計(jì)感,主要是一致性很好。

Nano Banana在理解上出現(xiàn)了偏差。它似乎將指令理解為:將整體畫面進(jìn)行3D化“浮雕”處理,而非將每個(gè)怪獸獨(dú)立建模,最終生成了一張立體感貼畫,未能完成核心任務(wù)。

本輪小結(jié): 即夢(mèng)4.0對(duì)3D指令的理解和執(zhí)行能力稍強(qiáng)一些。
03
中國(guó)古畫的再創(chuàng)作
Prompt:給這幅中國(guó)古畫的右上角,畫幾行白鷺。
這回主要考驗(yàn)AI能不能在中國(guó)風(fēng)古畫上加戲,模型不僅要畫出“白鷺”,更重要的是要讓這些白鷺完美融入古畫的意境中,無(wú)論是筆觸、墨色還是構(gòu)圖,都不能有違和感。
參考圖如下:

左側(cè)為即夢(mèng)4.0,右側(cè)為Nano Banana。出乎意料,這一輪兩者都表現(xiàn)不差。它們都沒有生硬地植入寫實(shí)白鷺,而是模仿了原作的筆觸和意境,并融入了自身的理解。添加的白鷺元素與背景渾然一體,沒有明顯的違和感。

本輪小結(jié): 平分秋色,都展現(xiàn)了不錯(cuò)的多風(fēng)格藝術(shù)融合能力。
04
星艦印滿比卡丘
Prompt:將星艦上印滿比卡丘。
這是一個(gè)考驗(yàn)紋理應(yīng)用、透視理解和IP識(shí)別的綜合案例。模型需要將“比卡丘”這個(gè)2D形象,作為紋理“貼”在“星艦”這個(gè)復(fù)雜的3D曲面上,并處理好透視、變形和光影變化,同時(shí)要保證比卡丘形象的準(zhǔn)確性。我隨便找來(lái)了一張星艦的圖片:

這是即夢(mèng)4.0生成的,在3D曲面物體上,比卡丘的元素融合確實(shí)很好。比卡丘紋理在星艦不同曲面(如機(jī)翼、機(jī)身)上的貼合程度,基本不存在不自然的拉伸或突出星艦本身的空間。

下面這具有視覺沖擊力的是Nano Banana生成的,比卡丘貼的嚴(yán)絲合縫。能看得出來(lái),“比卡丘”和“星艦”都是Nano Banana舒適區(qū)內(nèi)的元素,它能生成視覺沖擊力極強(qiáng)的畫面。

相比之下,Nano Banana的寫實(shí)渲染能力更強(qiáng)一下,會(huì)細(xì)致地處理每一個(gè)比卡丘在不同角度下的形態(tài),讓整個(gè)涂裝看起來(lái)很“真實(shí)”。
本輪小結(jié): 兩者都出色完成任務(wù)。Nano Banana在視覺效果和藝術(shù)氛圍更好一些。
05
手繪手帳風(fēng)格
Prompt:手帳手繪風(fēng)格,介紹Transformer是什么?魚香肉絲怎么做?
“手帳風(fēng)”是一種集插畫、貼紙、文字等多種元素于一體的拼貼藝術(shù)。模型需要理解并復(fù)現(xiàn)這種看似隨意卻充滿設(shè)計(jì)感的雜亂美學(xué)。
即夢(mèng)4.0的表現(xiàn)很不錯(cuò)。生成的中文文字清晰準(zhǔn)確,幾乎沒有錯(cuò)誤。無(wú)論是解釋Transformer架構(gòu)的圖文排版,還是魚香肉絲的食材圖鑒,都細(xì)節(jié)滿滿,風(fēng)格統(tǒng)一,實(shí)用性與美觀度兼?zhèn)洹?/p>

尤其是下面的魚香肉絲制作指南,看得出來(lái)對(duì)細(xì)節(jié)的把控很到位,整體所有食材的手繪圖細(xì)節(jié)都還不錯(cuò)。

Nano Banana在趣味性上稍遜一籌。但其優(yōu)勢(shì)在于對(duì)復(fù)雜元素的組織能力,在介紹Transformer的頁(yè)面中,它運(yùn)用了更多樣、更復(fù)雜的圖形元素來(lái)構(gòu)建畫面,視覺層次更豐富。

本輪小結(jié): 即夢(mèng)4.0在視覺上更可愛些,Nano Banana則在圖形元素的復(fù)雜組合上更有能力。
06
Sam Altman和Elon Musk 合影
Prompt:讓他倆合影
這是一個(gè)名人肖像融合的經(jīng)典測(cè)試。考驗(yàn)兩個(gè)AI圖片模型,在生成合影時(shí)處理光線、表情和身體姿態(tài)的自然度。

在這一個(gè)測(cè)試?yán)铮啾萅ano Banana,即夢(mèng)4.0的表現(xiàn)會(huì)更加自然一下,兩個(gè)人仿佛“世紀(jì)大和解”一樣。
只是,啊,喂!為什么Sam Altman和Elon Musk的臉部的元素有點(diǎn)趨同了?

而在Nano Banana的生成結(jié)果中,二者還是像我在參考圖中提供的元素那樣,保持動(dòng)作不變,很不自然。人物如同被簡(jiǎn)單地“摳圖”并置,缺乏真實(shí)的互動(dòng)感。

本輪小結(jié): 即夢(mèng)4.0在營(yíng)造自然氛圍上更優(yōu),但面部細(xì)節(jié)仍需打磨。
07
品牌元素的精準(zhǔn)植入:OpenAI商標(biāo)
Prompt:將多張OpenAI商標(biāo)圖印在Elon Musk的黑色西服上。
這個(gè)測(cè)試,與星艦案例類似,但更考驗(yàn)在衣物褶皺上的紋理貼合能力。黑色西服有明暗變化和布料褶皺,模型需要讓商標(biāo)圖案,根據(jù)這些物理變化產(chǎn)生自然的光影和透視形變。
OpenAI商標(biāo)圖如下:

二者相比,硬要說(shuō)的話,即夢(mèng)4.0將OpenAI元素融入Elon Musk的西服后,產(chǎn)生的效果看起來(lái)更有設(shè)計(jì)感一些,但是像是西服的袖口位置,并沒有被渲染到:

相反,Nano Banana更加忠實(shí)于提示詞,將OpenAI的商標(biāo)順著西服的褶皺印的滿滿當(dāng)當(dāng)?shù)摹ogo會(huì)根據(jù)衣物的褶皺產(chǎn)生自然的扭曲。

本輪小結(jié): Nano Banana在指令的忠實(shí)度和技術(shù)實(shí)現(xiàn)上更勝一籌。
08
Elon Musk的手辦
接下來(lái),我們把上面Nano Banana生成的圖做一個(gè)當(dāng)下最流行的手辦模型。
Prompt:使用nano-banana模型,制作圖片中角色的1/7比例商業(yè)手辦,風(fēng)格為寫實(shí),并置于真實(shí)環(huán)境中。手辦擺放在電腦桌上,配有一塊 無(wú)文字的圓形透明亞克力底座。電腦屏幕上顯示的是該手辦的ZBrush建模過程。電腦屏幕旁邊放置一只 萬(wàn)代(BANDAI)風(fēng)格的玩具包裝盒,包裝上印有原始插畫,呈現(xiàn)為二維平面插圖。請(qǐng)確保所有元素與參考圖嚴(yán)格一致。
二者的表現(xiàn),可以說(shuō)是不相上下。只是即夢(mèng)4.0背后電腦屏幕上的3D模型稍微有些幻覺:

Nano Banana確實(shí)會(huì)更加嚴(yán)謹(jǐn)一些,從手辦的寫實(shí)風(fēng)格,到包裝盒的平面插圖都執(zhí)行的不錯(cuò):

本輪小結(jié): 在復(fù)雜指令的執(zhí)行上,Nano Banana的精準(zhǔn)度略微領(lǐng)先。
09
多元素融合:換裝
下面我們來(lái)試試更多的元素融合。
Prompt:圖一的女性穿上圖二的搭配。

精準(zhǔn)局部重繪是AI圖像編輯的核心功能。考驗(yàn)的是模型在替換主體后,保持背景、光影、透視不變,并使新元素與環(huán)境無(wú)縫銜接的能力。
兩者在整體表現(xiàn)上都相當(dāng)不錯(cuò),成功地將新服裝融合到人物身上,效果逼真自然。但在細(xì)節(jié)處理上,兩者都還有提升空間,例如對(duì)手腕配飾的理解和重繪都出現(xiàn)了一些偏差。

本輪小結(jié): 整體打平,均屬于“說(shuō)得過去”但未達(dá)完美的水平。
10
狗換成哈士奇
這個(gè)案例也是看兩個(gè)模型能不能精準(zhǔn)重繪畫面中的某個(gè)元素。
Prompt:將男子的狗換成哈士奇。

這一輪,兩個(gè)模型都展現(xiàn)了成熟的圖像編輯能力,無(wú)論是寫實(shí)的哈士奇毛發(fā),還是與環(huán)境的融合度,都處理得非常好,效果難分伯仲。

本輪小結(jié): 再次平分秋色,均能高質(zhì)量完成任務(wù)。
11
劍風(fēng)傳奇漫畫上色
下面這個(gè)案例會(huì)更復(fù)雜些。非常考驗(yàn)?zāi)P偷纳仙芰蛯?duì)特定藝術(shù)風(fēng)格的理解。不僅僅是填色,好的AI上色需要理解,漫畫作者三浦建太郎原畫中的光影、材質(zhì)和氛圍,用色彩來(lái)增強(qiáng)而非破壞原作的厚重感和力量感。
Prompt:給劍風(fēng)傳奇的漫畫上色。

即夢(mèng)4.0上色風(fēng)格更偏向色彩夸張、對(duì)比強(qiáng)烈的美式漫畫,視覺沖擊力強(qiáng)。

Nano Banana對(duì)暗黑系的日漫風(fēng)格理解顯然更深。它的上色方案很好地保留了原作的史詩(shī)感和陰郁氛圍。

本輪小結(jié): Nano Banana對(duì)特定漫畫風(fēng)格的理解和詮釋更勝一籌。
12
塞爾達(dá)傳說(shuō)海報(bào)更改
下面這個(gè)案例測(cè)試模型對(duì)一個(gè)成熟、廣受歡迎的游戲IP藝術(shù)風(fēng)格的掌握程度,以及在此基礎(chǔ)上的創(chuàng)意延展能力。
Prompt:將這張海報(bào)男主對(duì)面改成血月。

即夢(mèng)4.0的生成結(jié)果更為震撼些,如果你仔細(xì)看左側(cè)男主,會(huì)發(fā)現(xiàn)即夢(mèng)重新給他打上了一層高光。整體人物的3D感更強(qiáng)些。

Nano Banana更傾向于在原作基礎(chǔ)上進(jìn)行細(xì)節(jié)增強(qiáng)或無(wú)痕的元素增減,保持海報(bào)的原汁原味。它并沒有使用很夸張的元素,去改變整體海報(bào)的感覺。

本輪小結(jié): 即夢(mèng)4.0的二次創(chuàng)作更夸張一點(diǎn),但Nano Banana的表現(xiàn)更忠實(shí)于原海報(bào),平分秋色。
13
塞爾達(dá)公主發(fā)型9宮格
兩個(gè)模型都很適合通過1張圖片,衍生出多種創(chuàng)意元素。
Prompt:根據(jù)我提供的參考圖片,生成9種不同的發(fā)型設(shè)計(jì),并整合在同一張照片中展示。畫面需通過特寫視角,分別突出每一種發(fā)型的細(xì)節(jié)與特點(diǎn),整體構(gòu)圖統(tǒng)一、美觀。
參考圖如下:

不知為何,即夢(mèng)4.0總是一張一張的生成,于是我將圖片拼接到了一起。它會(huì)生成各種角度和姿態(tài)的圖片,甚至出現(xiàn)了一些形態(tài)較為“詭異”的設(shè)計(jì)。
像第一排最左側(cè)第二張的那張圖是什么鬼!

Nano Banana表現(xiàn)更為穩(wěn)定。它嚴(yán)格地保留了原圖的背景和人物姿態(tài),僅針對(duì)發(fā)型進(jìn)行多樣化設(shè)計(jì),更忠實(shí)于提示詞和原有畫風(fēng),最終結(jié)果的風(fēng)格一致性很強(qiáng)。

本輪小結(jié): Nano Banana在保持一致性和遵循指令方面表現(xiàn)更優(yōu)。
14
世界十大地標(biāo)建筑等軸模型
這個(gè)測(cè)試,主要針對(duì)于模型對(duì)于特定建筑的識(shí)別能力和對(duì)“等軸測(cè)圖”這一特定繪畫風(fēng)格的執(zhí)行能力。“等軸模型”風(fēng)格常見于模擬經(jīng)營(yíng)游戲或扁平化設(shè)計(jì)中,要求所有物體在統(tǒng)一的斜向視角下呈現(xiàn),無(wú)近大遠(yuǎn)小的透視。
Prompt:生成世界10大地標(biāo)建筑的等軸模型
Emmmm怎么說(shuō)呢,左側(cè)是即夢(mèng)4.0,以一種非常“直白”的方式完成了任務(wù),它將10個(gè)地標(biāo)建筑分別生成為獨(dú)立的等軸模型,并嚴(yán)謹(jǐn)?shù)嘏渖狭宋淖謽?biāo)簽,像是一份建筑圖鑒。

Nano Banana則將所有地標(biāo)建筑融合在一張大圖里,創(chuàng)造了一個(gè)微縮景觀世界,整體更像是一個(gè)精美的模擬經(jīng)營(yíng)游戲資產(chǎn)。

本輪小結(jié): 即夢(mèng)4.0勝在信息清晰,Nano Banana勝在模型整合。
15
淘寶頁(yè)面精準(zhǔn)元素修改
下面就是最后一個(gè)案例了,這是一個(gè)比較實(shí)用的商業(yè)應(yīng)用場(chǎng)景測(cè)試。模型需要“讀懂”圖片上的文字和商品,理解畫面中各個(gè)元素的位置,并精準(zhǔn)地修改圖片上的對(duì)應(yīng)文字和數(shù)字,同時(shí)保持原有風(fēng)格不變。
Prompt:沙拉醬+肉松大于等于95%,券后1.67

這次的結(jié)果就不像以上那些結(jié)果“難解難分”了,即夢(mèng)4.0的表現(xiàn)明顯更好一些。它能夠識(shí)別出需要修改的文字區(qū)域,然后進(jìn)行精準(zhǔn)替換。同時(shí)完全不影響周圍的UI元素和商品圖像。

盡管多次嘗試,Nano Banana雖然能精準(zhǔn)修改數(shù)字,但總會(huì)“順手”改變面包的形態(tài),無(wú)法做到精準(zhǔn)的局部控制。

本輪小結(jié): 即夢(mèng)4.0優(yōu)勢(shì)很明顯,比較擅長(zhǎng)復(fù)雜畫面的精準(zhǔn)元素修改。
總結(jié)
經(jīng)過15輪風(fēng)格各異的“大考”,我們對(duì)即夢(mèng)4.0和Nano Banana這兩位AI繪畫“選手”的實(shí)力畫像也變得愈發(fā)清晰。即夢(mèng)4.0在寫實(shí)還原、創(chuàng)意設(shè)計(jì)和精準(zhǔn)編輯方面,功力更深厚些。Nano Banana則更忠于提示詞、風(fēng)格也更多變些。另一個(gè)親身體驗(yàn)下來(lái)的直觀發(fā)現(xiàn)是:即夢(mèng)4.0的生成速度真的很快,幾乎只要Google AI Studio或Gemini調(diào)用Nano Banana所需時(shí)間的一半。
不過,看完這場(chǎng)“神仙打架”,最大的感觸是:國(guó)產(chǎn)模型和國(guó)外大廠的差距,已經(jīng)越來(lái)越小,甚至相持不下了。說(shuō)實(shí)話,我已經(jīng)提前預(yù)見到,2025年下半年,AI圖像生成模型的競(jìng)爭(zhēng)只會(huì)更加白熱化,同時(shí)也會(huì)更加百花齊放。