Google AI 新模型 Nano Banana 多圖融合換裝、角色一致性讓創作更自由

2025/09/20 更新2025/08/31 發佈閱讀 6 分鐘

Google AI Studio網址：https://aistudio.google.com/prompts/new_chat

Google於2025年8月25日正式發布的最新一代圖像生成與編輯模型 Gemini 2.5 Flash Image 代號「nano-banana」。從底層就設計為多模態模型，具備深度語言理解能力，能夠在單一步驟中同時處理文字和圖像輸入。因此，輸入一段敘述性的段落會比一堆斷斷續續的字詞能生成更好圖像。

特點：

對話式圖像編輯
通過自然語言指令，就可以進行精確的目標編輯，如模糊背景、移除物件、改變姿勢或為黑白照片上色。
多圖像融合技術
可以參考多張輸入圖像融合生成一張視覺作品。
角色與風格一致性
官方敘述模型能夠維持角色、物件或風格在多個提示和圖像間的一致性，但個人感受對於熟悉的臉孔，仍然還是會感到不像，仍需要多加嘗試。技術上可以相比過去使用 Midjourney 為了「角色一致性」而使用 --cref --cw 來參照生成。

1.將生活照轉換成韓式形象照

Prompt: 「人物穿著深藍色修身版西裝外套搭配白色襯衫，展現休閒西裝風格。拍攝場景為攝影棚，背景為灰色中性色調，燈光柔和均勻，營造自然專業的氛圍。人物略微側身但仍直視鏡頭，保持自信、專業又親和的神態。」

Google AI Studio 提供多項進階設定，包括 Temperature、Top P 與 Safety settings 等。Temperature 負責控制生成內容的隨機性，高數值（如 0.95）能帶來更多創意與變化，降低至 0.7–0.8 則可提升人像的一致性；Top P 決定模型選字的多樣化範圍，數值越高輸出越豐富，越低則結果更集中、可預測；而 Safety settings 用於過濾不當內容，建議維持預設即可，不會影響專業人像處理，同時確保輸出安全。

2.局部修圖：替換衣物

Prompt: 「依照提供的男性人物角色照片，來生成在電腦螢幕中的有單色3D人物建模線稿，桌上有一個男性人物的塑膠玩具盒、以及彩色如照片男性人物一樣的塑膠立體雕塑模型、模型工具。背景是動漫公仔玩具、日式漫畫的房間。」

Prompt: a 1/7 scale commercial figurine of the character in the picture was drawn, in a realistic style and in a real environment. The figurine was placed on a computer desk with a round transparent acrylic base with no text on it. The content on the computer screen was the brush modeling process of the figurine, and next to the computer screen was a BANDAI-style toy box with the original painting printed on it.

3.融合多張圖片

Prompt: 「請將這些圖片融合成一張圖，每個物件和角色都不能缺漏。」

4.可依照草圖來生成

Prompt: 「根據動作草圖來生成兩隻貓互相打鬥，並呈現賽博龐克風格。」像是手繪火柴人就能生成指定動作。

5.指定替換紅框物件

Prompt: 「替換掉紅框中的桌子。」

6.數學推理能力

Prompt: 「請補上∠B 的角度。」

7.指定視覺效果與尺寸

Prompt: 「極簡主義美食照片，[1080x1080] 一瓶可口可樂經典玻璃曲線瓶站立在輕盈的啞光錶面上，玻璃爆炸破裂，玻璃與液體正在逐漸轉變為微小粒子，碎裂成細小的、漂浮的冰塊和液體水珠，向外漂移，每一塊冰塊都展現出物體的紋理、反射材質和顏色。玻璃瓶形體不再完整，可口可樂液體如爆炸般噴散開來。攝影棚燈光，柔和逼真的陰影，淺景深，雅緻的透視和構圖，超現實主義的細節，時尚的幾何抽象，高分辨率，電影般的特寫鏡頭。」

▍技術規格與定價

模型規格

輸入支援：文字字串、圖像、音頻和視頻文件，具備1M token上下文窗口
輸出能力：圖像輸出，32K token輸出限制
架構：稀疏混合專家(MoE)變換器，原生多模態支援
圖像解析度：支援1024×1024像素圖像生成

定價：

每百萬輸出token收費30美元，每張圖像約0.039美元（基於每張圖像1290個輸出token）相比OpenAI的DALL-E 3便宜約40%

免費額度：

每日500個請求
每分鐘250,000個token
完全免費使用，無地理限制

▍使用心得：

雖然是免費使用圖片生成，仍需要避免直接拿去商業使用，即便去除右小角可見浮水印，仍有隱藏的數位浮水印。免費32K的額度來生活試玩用途，或生成文章附圖已經非常夠用。Nano-Banana 對於語言的理解程度的確更好，既便一些細節沒有框選，也能夠理解並完成修改。細緻度也有提升，但個人仍覺得 Midjourney 細膩度與圖像解析度更強大些。