Google AI Studio網址:https://aistudio.google.com/prompts/new_chat
Google於2025年8月25日正式發布的最新一代圖像生成與編輯模型 Gemini 2.5 Flash Image 代號「nano-banana」。從底層就設計為多模態模型,具備深度語言理解能力,能夠在單一步驟中同時處理文字和圖像輸入。因此,輸入一段敘述性的段落會比一堆斷斷續續的字詞能生成更好圖像。
特點:
- 對話式圖像編輯
通過自然語言指令,就可以進行精確的目標編輯,如模糊背景、移除物件、改變姿勢或為黑白照片上色。 - 多圖像融合技術
可以參考多張輸入圖像融合生成一張視覺作品。 - 角色與風格一致性
官方敘述模型能夠維持角色、物件或風格在多個提示和圖像間的一致性,但個人感受對於熟悉的臉孔,仍然還是會感到不像,仍需要多加嘗試。技術上可以相比過去使用 Midjourney 為了「角色一致性」而使用 --cref --cw 來參照生成。
將生活照轉換成韓式形象照
Prompt: 「人物穿著 深藍色修身版西裝外套 搭配 白色襯衫,展現休閒西裝風格。拍攝場景為 攝影棚,背景為 灰色中性色調,燈光柔和均勻,營造自然專業的氛圍。人物 略微側身但仍直視鏡頭,保持自信、專業又親和的神態。」Google AI Studio 提供多項進階設定,包括 Temperature、Top P 與 Safety settings 等。Temperature 負責控制生成內容的隨機性,高數值(如 0.95)能帶來更多創意與變化,降低至 0.7–0.8 則可提升人像的一致性;Top P 決定模型選字的多樣化範圍,數值越高輸出越豐富,越低則結果更集中、可預測;而 Safety settings 用於過濾不當內容,建議維持預設即可,不會影響專業人像處理,同時確保輸出安全。

局部修圖

Prompt: 「依照提供的男性人物角色照片,來生成在電腦螢幕中的有單色3D人物建模線稿,桌上有一個男性人物的塑膠玩具盒、以及彩色如照片男性人物一樣的塑膠立體雕塑模型、模型工具。背景是動漫公仔玩具、日式漫畫的房間。」

融合多張圖片
Prompt: 「請將這些圖片融合成一張圖,每個物件和角色都不能缺漏。」


可依照草圖來生成
Prompt: 「根據動作草圖來生成兩隻貓互相打鬥,並呈現賽博龐克風格。」像是手繪火柴人就能生成指定動作。


指定替換紅框物件
Prompt: 「替換掉紅框中的桌子。」

數學推理能力
Prompt: 「請補上∠B 的角度。」


技術規格與定價
模型規格
- 輸入支援:文字字串、圖像、音頻和視頻文件,具備1M token上下文窗口
- 輸出能力:圖像輸出,32K token輸出限制
- 架構:稀疏混合專家(MoE)變換器,原生多模態支援
- 圖像解析度:支援1024×1024像素圖像生成
定價:
每百萬輸出token收費30美元,每張圖像約0.039美元(基於每張圖像1290個輸出token)相比OpenAI的DALL-E 3便宜約40%
免費額度:
- 每日500個請求
- 每分鐘250,000個token
- 完全免費使用,無地理限制
使用心得:
雖然是免費使用圖片生成,仍需要避免直接拿去商業使用,即便去除右小角可見浮水印,仍有隱藏的數位浮水印。免費32K的額度來生活試玩用途,或生成文章附圖已經非常夠用。Nano-Banana 對於語言的理解程度的確更好,既便一些細節沒有框選,也能夠理解並完成修改。細緻度也有提升,但個人仍覺得 Midjourney 細膩度與圖像解析度更強大些。