在此之前,這款模型曾以「Nano Banana」的代號在 AI 模型評測平台 LMArena 上進行匿名測試,並因其出色的圖像生成與編輯能力,特別是在維持角色一致性方面的優異表現,引起了 AI 社群的廣泛關注和熱烈討論。
在2025年8月26日的官方發布中,Google 揭曉了這個神秘模型的真實身分,並宣布將其整合至 Gemini App 中,同時也透過 API 的形式提供給開發者使用。
使用過程對於圖片加中文字會變亂碼,英文字可以正常呈現。例如:
1.上傳 一張圖片 (此圖為之前用chatgpt產生的line圖片)

2. prompt: "把它變成電腦桌前面的立體公仔,螢幕顯示的是它的3D設計圖"

Gemini 2.5 Flash Image (Nano Banana) 是 Google DeepMind 專為快速、高效且可控的圖像生成與編輯所設計的先進模型。它不僅僅是單純的「文字到圖像」生成器,更像是一個能與使用者進行多輪對話、精準理解並執行複雜視覺指令的智慧創意夥伴。
以下是它的主要特性以及其背後的模型處理特性:
主要使用者特性 (Features)
* 對話式圖像編輯與生成 (Conversational Editing & Generation):
* 多輪對話能力: 這是其核心亮點。你可以像與設計師對話一樣,逐步修改圖片。例如,你可以先說「生成一隻在草地上奔跑的黃金獵犬」,然後接著說「讓牠戴上一頂藍色帽子」,再接著「把背景換成沙灘」,模型會在同一個圖像基礎上進行迭代修改,而不是每次都生成全新的圖片。
* 高效率生成: 模型生成圖像的速度非常快,通常在幾秒鐘內就能完成,使其非常適合需要快速產出或即時預覽的應用場景。
* 精準的指令遵循能力 (Precise Instruction Following):
* 局部編輯: 你可以指定圖像的特定區域進行修改。例如,「只改變這輛車的顏色,其他部分不變」或「在圖片左上角加一個太陽」。
* 風格與構圖控制: 模型能理解更細緻的藝術指令,如「使用梵谷的風格」、「採用廣角鏡頭的視角」或「讓畫面更有電影感」。
* 保持角色與物件一致性 (Character & Object Consistency):
* 這是在多輪對話和系列圖像生成中的一大突破。當你指定了一個角色(例如,「一個穿著紅色太空衣的太空人」),並要求模型為這個角色生成不同場景的圖片時(例如,「讓他在月球上跳躍」、「讓他在太空船裡喝咖啡」),Nano Banana 能高度保持該角色的外觀特徵(如服裝、臉部特徵)不變,解決了傳統 AI 繪圖工具在連續創作中角色形象不統一的痛點。
* 圖像融合與風格轉換 (Image Blending & Style Transfer):
* Inpainting/Outpainting: 可以智慧地填補或擴展圖像的缺失部分。
* 混合圖像 (Image Blending): 可以將兩張圖片的元素或風格自然地融合在一起。
* 從參考圖學習: 你可以提供一張參考圖片,讓模型學習其風格或特定元素,並應用到新的創作中。
核心模型處理特性 (Model Characteristics)
* 輕量級與高效率架構:
* 「Nano Banana」這個暱稱暗示了其模型的設計理念——像「Nano」一樣輕巧、快速。它建立在 Gemini 2.5 Flash 的高效架構之上,經過特別優化,大幅減少了計算資源的需求。這使得它能夠實現低延遲的即時互動,並且部署成本更低。
* 視覺語言整合的深度理解:
* 模型不僅僅是將文字標籤對應到視覺元素。它透過龐大的視覺與文字資料庫進行訓練,能夠深度理解自然語言指令中蘊含的空間關係、動作、風格和抽象概念,並將這些理解精準地轉化為像素級的視覺呈現。
* 強化的上下文記憶能力:
* 為了實現出色的多輪對話編輯和角色一致性,模型內建了強大的短期記憶機制。它能在整個對話過程中「記住」先前的圖像狀態、使用者指令以及生成的關鍵視覺元素(如角色的特定外觀),確保後續的每一步修改都是建立在連貫的上下文基礎之上。
* 擴散模型 (Diffusion Model) 的進階應用:
* 其底層技術很可能基於先進的擴散模型,但進行了大量改良。傳統擴散模型從隨機噪點開始生成圖像,而 Nano Banana 的模型則能夠從一張現有圖像的「潛在表示 (Latent Representation)」出發,根據指令對這個表示進行微調,然後再渲染出修改後的圖像。這種「圖像到圖像 (Image-to-Image)」的轉換方式是實現高效、精準編輯的關鍵。
總結來說,Gemini 2.5 Flash Image (Nano Banana) 的核心突破在於將高效的圖像生成能力與流暢的多輪對話互動無縫結合。它不僅僅是一個工具,更像是一個能聽懂、能記憶、能精準執行的視覺助理,極大地提升了創意工作的效率和可能性。