Google AI Studio網址:https://aistudio.google.com/prompts/new_chat
Google於2025年8月25日正式發布的最新一代圖像生成與編輯模型 Gemini 2.5 Flash Image 代號「nano-banana」。從底層就設計為多模態模型,具備深度語言理解能力,能夠在單一步驟中同時處理文字和圖像輸入。因此,輸入一段敘述性的段落會比一堆斷斷續續的字詞能生成更好圖像。
特點:
- 對話式圖像編輯
通過自然語言指令,就可以進行精確的目標編輯,如模糊背景、移除物件、改變姿勢或為黑白照片上色。 - 多圖像融合技術
可以參考多張輸入圖像融合生成一張視覺作品。 - 角色與風格一致性
官方敘述模型能夠維持角色、物件或風格在多個提示和圖像間的一致性,但個人感受對於熟悉的臉孔,仍然還是會感到不像,仍需要多加嘗試。技術上可以相比過去使用 Midjourney 為了「角色一致性」而使用 --cref --cw 來參照生成。
1.將生活照轉換成韓式形象照
Prompt: 「人物穿著 深藍色修身版西裝外套 搭配 白色襯衫,展現休閒西裝風格。拍攝場景為 攝影棚,背景為 灰色中性色調,燈光柔和均勻,營造自然專業的氛圍。人物 略微側身但仍直視鏡頭,保持自信、專業又親和的神態。」Google AI Studio 提供多項進階設定,包括 Temperature、Top P 與 Safety settings 等。Temperature 負責控制生成內容的隨機性,高數值(如 0.95)能帶來更多創意與變化,降低至 0.7–0.8 則可提升人像的一致性;Top P 決定模型選字的多樣化範圍,數值越高輸出越豐富,越低則結果更集中、可預測;而 Safety settings 用於過濾不當內容,建議維持預設即可,不會影響專業人像處理,同時確保輸出安全。

2.局部修圖:替換衣物

Prompt: 「依照提供的男性人物角色照片,來生成在電腦螢幕中的有單色3D人物建模線稿,桌上有一個男性人物的塑膠玩具盒、以及彩色如照片男性人物一樣的塑膠立體雕塑模型、模型工具。背景是動漫公仔玩具、日式漫畫的房間。」


Prompt: a 1/7 scale commercial figurine of the character in the picture was drawn, in a realistic style and in a real environment. The figurine was placed on a computer desk with a round transparent acrylic base with no text on it. The content on the computer screen was the brush modeling process of the figurine, and next to the computer screen was a BANDAI-style toy box with the original painting printed on it.
3.融合多張圖片
Prompt: 「請將這些圖片融合成一張圖,每個物件和角色都不能缺漏。」


4.可依照草圖來生成
Prompt: 「根據動作草圖來生成兩隻貓互相打鬥,並呈現賽博龐克風格。」像是手繪火柴人就能生成指定動作。


5.指定替換紅框物件
Prompt: 「替換掉紅框中的桌子。」

6.數學推理能力
Prompt: 「請補上∠B 的角度。」


7.指定視覺效果與尺寸

Prompt: 「極簡主義美食照片,[1080x1080] 一瓶可口可樂經典玻璃曲線瓶站立在輕盈的啞光錶面上,玻璃爆炸破裂,玻璃與液體正在逐漸轉變為微小粒子,碎裂成細小的、漂浮的冰塊和液體水珠,向外漂移,每一塊冰塊都展現出物體的紋理、反射材質和顏色。玻璃瓶形體不再完整,可口可樂液體如爆炸般噴散開來。攝影棚燈光,柔和逼真的陰影,淺景深,雅緻的透視和構圖,超現實主義的細節,時尚的幾何抽象,高分辨率,電影般的特寫鏡頭。」
▍技術規格與定價
模型規格
- 輸入支援:文字字串、圖像、音頻和視頻文件,具備1M token上下文窗口
- 輸出能力:圖像輸出,32K token輸出限制
- 架構:稀疏混合專家(MoE)變換器,原生多模態支援
- 圖像解析度:支援1024×1024像素圖像生成
定價:
每百萬輸出token收費30美元,每張圖像約0.039美元(基於每張圖像1290個輸出token)相比OpenAI的DALL-E 3便宜約40%
免費額度:
- 每日500個請求
- 每分鐘250,000個token
- 完全免費使用,無地理限制
▍使用心得:
雖然是免費使用圖片生成,仍需要避免直接拿去商業使用,即便去除右小角可見浮水印,仍有隱藏的數位浮水印。免費32K的額度來生活試玩用途,或生成文章附圖已經非常夠用。Nano-Banana 對於語言的理解程度的確更好,既便一些細節沒有框選,也能夠理解並完成修改。細緻度也有提升,但個人仍覺得 Midjourney 細膩度與圖像解析度更強大些。