就在 Gemini 3 大語(yǔ)言模型發(fā)布的 48 小時(shí)后,Google 在剛剛再次投下一枚重磅炸彈:Nano Banana Pro(即 Gemini 3 Pro Image)正式上線。
這款建立在 Gemini 3 Pro 架構(gòu)之上的新模型,旨在解決長(zhǎng)期困擾 AI 繪圖領(lǐng)域的兩大頑疾:不可控的隨機(jī)性與對(duì)物理世界認(rèn)知的匱乏。與此前主打速度與成本效益的 Nano Banana(即 Gemini 2.5 Flash Image)不同,Pro 版本被明確定義為一款“高保真(High-fidelity)”工具,它不再滿足于僅僅生成一張好看的圖片,而是試圖理解圖片背后的邏輯。這種理解力來(lái)源于 Gemini 3 強(qiáng)大的推理引擎,Google DeepMind 的產(chǎn)品經(jīng)理 Naina Raisinghani 將其描述為一種能夠調(diào)用“世界知識(shí)”的能力。
圖丨Gemini 3 Pro 圖像在文本生成圖像的人工智能基準(zhǔn)測(cè)試中的表現(xiàn)(來(lái)源:Google)
最直觀的體現(xiàn)在于信息圖表的生成。在以往,要求 AI 繪制一張關(guān)于特定植物的科普?qǐng)D,往往會(huì)得到一張充滿虛構(gòu)文字和錯(cuò)誤生物特征的圖片。但在 Nano Banana Pro 的官方演示中,當(dāng)用戶要求生成一張關(guān)于“烏龜串(String of Turtles)”植物的養(yǎng)護(hù)指南時(shí),模型不僅準(zhǔn)確還原了葉片特殊的紋理細(xì)節(jié),還通過(guò) Google Search 的接地(Grounding)技術(shù),實(shí)時(shí)檢索并正確標(biāo)注了原產(chǎn)地、光照需求等真實(shí)信息。
圖丨模型生成的“烏龜串(String of Turtles)”的養(yǎng)護(hù)指南(來(lái)源:Google)
對(duì)于設(shè)計(jì)師和品牌方而言,新模型帶來(lái)的最大驚喜莫過(guò)于對(duì)文本渲染(Text Rendering)和多語(yǔ)言本地化的史詩(shī)級(jí)增強(qiáng)。長(zhǎng)期以來(lái),AI 在處理圖像內(nèi)文字時(shí)總是顯得力不從心,生成的字符往往亂碼難以辨認(rèn)。而 Nano Banana Pro 似乎徹底攻克了這一難關(guān)。在官方展示的一個(gè)飲料品牌案例中,模型不僅在易拉罐曲面上完美貼合了英文品牌名,甚至能根據(jù)指令,直接生成符合透視關(guān)系和光影邏輯的法文版包裝圖。
而在創(chuàng)意控制力方面,Google 此次展現(xiàn)出了與其“Pro”后綴相匹配的專業(yè)度。過(guò)去,為了保持角色一致性,創(chuàng)作者往往需要借助復(fù)雜的 LoRA 訓(xùn)練或 ControlNet 插件,而 Nano Banana Pro 原生支持了極高強(qiáng)度的上下文保持能力。
據(jù)技術(shù)文檔顯示,該模型可以同時(shí)處理多達(dá) 14 張參考圖像的輸入,并能在一個(gè)復(fù)雜的場(chǎng)景中,精準(zhǔn)鎖定并保持多達(dá) 5 個(gè)不同角色的面部特征與服裝細(xì)節(jié)不變。
圖丨在復(fù)雜構(gòu)圖中保持 14 個(gè)輸入的一致(來(lái)源:Google)
無(wú)論是將草圖轉(zhuǎn)化為精細(xì)的 3D 渲染圖,還是在不同分鏡中保持主角形象的統(tǒng)一,這種“導(dǎo)演級(jí)”的控制力讓 AI 生成的內(nèi)容終于能夠承載連貫的敘事。此外,針對(duì)專業(yè)攝影需求,模型開(kāi)放了對(duì)景深(Bokeh)、光影角度、色彩分級(jí)(Color Grading)等物理參數(shù)的微調(diào)權(quán)限,支持最高 4K 分辨率的輸出,這無(wú)疑是向 Midjourney 等競(jìng)爭(zhēng)對(duì)手發(fā)起的直接挑戰(zhàn)。
