AI|我說故事給 GPT 聽,它就幫我教 Nano Banana 去畫出一場戲

更新於 發佈於 閱讀時間約 8 分鐘
raw-image

這週,AI 圖像圈被一條「香蕉」刷爆了版面。沒錯,就是那條突然出現在 LMArena、大家都在瘋測的神祕模型——Nano Banana,真身其實是 Google Gemini 2.5 Flash Image

如果你是 Google Pro 的訂閱者,現在進 Google Gemini 到對話框裡點一下「Tools」就會看見那條黃色香蕉。

在 Google Pro 版的 Gemini 對話框中的那條香蕉

在 Google Pro 版的 Gemini 對話框中的那條香蕉

附註:要免費使用 Nano Banana 除了 Google 本家的 Gemini 和 AI Studio 之外,有些付費平台也都已經加入這個模型了,而那位旁邊喝茶的 Adobe,也把這條香蕉放進了 Firefly 裡了。至於不想要建帳號無負擔使用(而且公開圖片也無妨)的話,就到LMArena選擇 gemini-2.5-flash-image-preview (nano-banana)直用即可。
在 LMArena 頁面上方選「Direct Chat」才能直選 Nano Banana

在 LMArena 頁面上方選「Direct Chat」才能直選 Nano Banana

而我在它正式公開後,跟它對話了三天,做了個專門幫它「翻譯人話」的 Nano Banana Prompt Builder GPT,專門把人話翻成給 Gemini 的精確的指令,讓你貼給 Gemini,它就能幫你寫出能畫出「一整場戲」。

我做的免費 GPTs ,有需要的可留言一下

我做的免費 GPTs ,有需要的可留言一下

要做四格漫畫、角色圖卡(Character Sheet)、故事分鏡(Storyboard)、YouTube 縮圖——你只需要說想做什麼,這顆 GPT 就會:

  • 把你的想法自動轉成 Nano Banana 看得懂的語法;
  • 還能自訂鏡頭、構圖與焦段(對,我有做焦段選單);
  • 丟給 Gemini,一次生出多張連貫圖片,角色一致性還高得驚人。

我用它測了各種情境,有幾個小心得分享:

  • 角色一致性真的有驚喜,連續畫面也能穩定維持風格;
  • 不同 Google 帳號(企業版、教育版、Pro)生成的品質可能會有些微差異(我的主觀野生觀察);
  • 有時候可以先用 Midjourney 打底美術,再回來 Gemini 做氛圍補強或細節控制;
  • 要做複雜編修(像「手上的箱子換成金色香蕉」)時,建議分步處理,不要一次喊太多,不然 Banana 會失控自己開玩笑。

這條香蕉真懂人話:Gemini 修圖真的不靠猜

故事要從上週說起。一週前,中國阿里集團推出 Qwen3 ,撐起了 AI 生圖界的新王位,結果不到兩週,王位就換人坐了!

有長期關注 AI 的朋友應該知道,上週在 LMArena 橫空殺出的那條神祕香蕉,瞬間佔滿媒體版面。接著在前兩天,它的真實身份終於揭曉:Google Gemini 2.5 Flash Image,代號 Nano Banana。

8 月 27 日凌晨,幾位資深 AI YouTuber 同步爆料:「上週以來大家測的那條香蕉,其實就是 Google 做的!」Google 也不藏了,直接公開認領:「對啦,那是我們家的 Gemini。」

Google 說這條 Banana 很會聽人話、角色一致性好、中文也通。我從 LMArena 開始測,測到現在又整整三天,還沒發瘋,但驚呼聲已經用光三副喉嚨。

這工具不只是文生圖,還能編修、合成、拼圖、混圖——彷彿 Photoshop、Illustrator、Lightroom 三合一的「對話式修圖助理」。而且重點來了,它不會亂改主角的臉,角色一致性高到讓你以為 AI 終於懂你了。

如果你曾為一張簡報封面圖傷腦筋、或為了幫媽媽修婚禮照片被唸到失眠⋯⋯這條 Banana,可能會是你最甜的一口救星。


自然語言的理解力:Gemini 真的是「一句中文就夠」?

Nano Banana 最令人驚艷的,除了修圖速度快、角色穩定,還有它那驚人的「語意理解力」——你講中文,它聽得懂;你給圖片,它會照辦:

  • 圖像轉圖像:像是把你從辦公室換到山頂;
  • 氣氛變換:夏天變冬天、白天變夜晚,一句話就行;
  • 混圖合成:支援一次多張圖合成,我測試過三張最穩(官方也這樣說),再多它會開始鬼打牆;
  • 風格轉換:一鍵穿越時空 ,不同年代造型、藝術風格或插畫手感隨你說;
  • 老照片修復與上色:Photoshop 可以先到旁邊喝茶!

說到老照片修復和上色,我甚至實測了一張 2022 年承接一個博物館專案時,用手工修復上色的 1871 年 John Thomson 拍的《Lalung, Formosa》(取自Wikipidia)照片,來和 Gemini 、Photoshop Neural Filter 比一輪,結果——你可以自己判斷誰該流汗。

從左至右:《Lalung, Formosa (Taiwan)》原圖|我用 Photoshop 手工修復|Gemini 上色

從左至右:《Lalung, Formosa (Taiwan)》原圖|我用 Photoshop 手工修復|Gemini 上色

從左至右:我用 Photoshop 手工修復|Gemini 上色|我用 Photoshop 手工上色

從左至右:我用 Photoshop 手工修復|Gemini 上色|我用 Photoshop 手工上色

我知道你會想問:那上週的王、Qwen 3 如何?不是說修復老照片、上色也很強?好的,結果在下面:

從左至右:《Lalung, Formosa (Taiwan)》原圖|Qwen 3 修復|Qwen 3 上色

從左至右:《Lalung, Formosa (Taiwan)》原圖|Qwen 3 修復|Qwen 3 上色

從左至右:我用 Photoshop 手工修復|Qwen 3 上色第一版|Qwen 3 上色第二版

從左至右:我用 Photoshop 手工修復|Qwen 3 上色第一版|Qwen 3 上色第二版

你會發現不管是在 Gemini 還是在 Qwen 3,修復和上色老照片只要一句「修復並上色」、「Restore and recolor」,這樣的操作門檻,比你學會用 Photoshop 的選取工具還要低喔!

簡單小結一下:老照片先讓 AI 修復成黑白同時加強反差(所以你提示詞要說:修復成黑白照片並加強反差),再讓它上色,效果會更理想。上面的圖例可以看出,我用 Photoshop 手工調整過反差的照片,交給 AI 上色的效果,明顯比直接讓 AI 一步完成修復和上色的好很多。

關於這張老照片中的地點(高雄荖濃溪「白雲仙谷」)下面這篇文章裡有現況照片:


想精修?還是得靠 JSON(或你畫我改)

當然,如果你不是要下雪、變裝,而是像我一樣要它做細工:「把飛行員的眼鏡從帽子拿下來戴到眼睛上」,那就別期待一句「把頭上的眼鏡戴到眼睛上」會成功,因為它不會知道人類頭上戴了一副眼鏡、這眼鏡改到眼睛上時,原先那副就不在那了,所以你會得到一張「一顆頭戴兩副眼鏡」的圖片。

別以為 AI 什麼都懂,其實它最缺的就是人類真實的生活體驗

別以為 AI 什麼都懂,其實它最缺的就是人類真實的生活體驗

當你不斷對著他問:「你怎麼連這點都不會?」它也只能頻頻道歉說讓你失望了!這時候你最好調整自己,進入專業區:

  • 用 JSON 格式寫出明確的修改邏輯(不會沒關係,可以請任何一個 AI幫你)
  • 在圖片上畫參考線或圈選區域( Nano Banana 懂圖像標註、草圖引導等高階技巧。畫個圈、註明「這邊改成金色香蕉」,它真的會照做 )
  • 多步驟迭代處理,不要一次貪心修多處

小提醒:如果你遇到它卡住了,不妨:

  • 開新對話(AI 也有情緒,需要重置);
  • 換一種說法講你的需求;
  • 問問它「為什麼你做不到?跟我說原因」,它真的會回你;
  • 最終底牌:你先去睡,明天再戰。

畢竟它還是預覽版,有點「藝術家個性」也可以理解。


角色一致性 vs 創意暴走:Gemini vs Qwen3 對決

這兩位目前的圖像模型大將的實測結果,我做了個簡表來對照:

raw-image

多次實測後,建議讓這兩位一起合作,因為有時前面那位耍脾氣、後面這位就補得上,而且補得很好,尤其是畫面中要有中文的話,那 Qwen3 就完勝了。

一句話總結:Gemini 是溫柔細膩但偶爾不聽話的對話型修圖師;Qwen3 是爆走又充滿靈感的創作狂人。

附帶提一下,如果要讓 Gemini 狂起來也不是不行,但你的提示詞就要誇張一點,例如用「高度戲劇性」描述氛圍,會比「高度電影感」來得效果好:


後記:AI 修圖不是寫魔法指令,是和角色一起長出故事

從 Nano Banana 的角色一致性、快速編修、迭代對話,到多圖生成、混合合成,這不只是一個圖像工具,更像是你手邊最懂你想像的視覺編輯搭檔。

2025年8月的今天,已不再是「會寫 prompt 才能用 AI」,而是「你怎麼開始一段對話,AI 就怎麼陪你走完它」的時代。

所以啊,當你下次打開 Gemini,不妨試著不要命令它,而是問它:「我們來一起做張圖,好嗎?」










留言
avatar-img
留言分享你的想法!
avatar-img
Thomas的沙龍
5會員
5內容數
在這裡,我用故事寫 AI,也用影像、文字和物件回望日常。記下一支筆的手感、一張照片的光線、一段創作過程的起伏;也記錄生活裡那些微小但有溫度的東西。每篇文章都是一次對話——關於創作、關於觀察、也關於我如何在快速變動的世界裡,找到屬於自己的節奏與光亮。
Thomas的沙龍的其他內容
2025/08/29
說到臺南運河,上一篇文章才剛提到它即將滿百歲,這回就順著這條水路,把我多年前製作的一張「1930年代臺南運河盲段 3D情境模擬圖」重新翻出來。這個「盲段」位置大約就在今天的河樂廣場後半段,靠近運河那一端。趁著腦袋裡的記憶還沒退潮,就來寫一下那段製作過程的點滴。
Thumbnail
2025/08/29
說到臺南運河,上一篇文章才剛提到它即將滿百歲,這回就順著這條水路,把我多年前製作的一張「1930年代臺南運河盲段 3D情境模擬圖」重新翻出來。這個「盲段」位置大約就在今天的河樂廣場後半段,靠近運河那一端。趁著腦袋裡的記憶還沒退潮,就來寫一下那段製作過程的點滴。
Thumbnail
2025/08/22
明年就是臺南運河開通一百週年。這兩天整理資料時,我意外翻出好幾年前為「臺南運河博物館」設計的那顆印章圖稿。那顆木刻印章尺寸很大,長度約 10 公分,陪著博物館走過營運的一年時間,最後卻在換新承接廠商後神祕失蹤。雖然有點惋惜,但也因為它,我才走上了這條迷人的印章設計之路。
Thumbnail
2025/08/22
明年就是臺南運河開通一百週年。這兩天整理資料時,我意外翻出好幾年前為「臺南運河博物館」設計的那顆印章圖稿。那顆木刻印章尺寸很大,長度約 10 公分,陪著博物館走過營運的一年時間,最後卻在換新承接廠商後神祕失蹤。雖然有點惋惜,但也因為它,我才走上了這條迷人的印章設計之路。
Thumbnail
2025/08/14
POSTALCO Tool Box 不僅僅是一個筆盒,它更像是一個小型移動工作室,承載著我的生活與工作點滴。一年使用下來,其優質材質、細膩設計與獨特使用體驗,讓我感受到它超越工具的價值。
Thumbnail
2025/08/14
POSTALCO Tool Box 不僅僅是一個筆盒,它更像是一個小型移動工作室,承載著我的生活與工作點滴。一年使用下來,其優質材質、細膩設計與獨特使用體驗,讓我感受到它超越工具的價值。
Thumbnail
看更多
你可能也想看
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 現在我們來看看 Google Gemini (https://gemini.google.com/ to start a dialog) 的能力: 回答如下:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 現在我們來看看 Google Gemini (https://gemini.google.com/ to start a dialog) 的能力: 回答如下:
Thumbnail
AI生成圖片是一個挑戰性的任務,雖然AI能理解文字需求,但仍無法完全想像心中的理想畫面。使用中文描述AI的生成效果約為5成到6成,而加入擬人化的描述可以讓AI更好地理解需求。無論如何,AI生成圖片仍面臨許多挑戰,需要更多的研究與嘗試。
Thumbnail
AI生成圖片是一個挑戰性的任務,雖然AI能理解文字需求,但仍無法完全想像心中的理想畫面。使用中文描述AI的生成效果約為5成到6成,而加入擬人化的描述可以讓AI更好地理解需求。無論如何,AI生成圖片仍面臨許多挑戰,需要更多的研究與嘗試。
Thumbnail
AI繪圖要廣泛用於商用還有一大段路,還需要依賴人類的經驗判斷、調整,為什麼呢?
Thumbnail
AI繪圖要廣泛用於商用還有一大段路,還需要依賴人類的經驗判斷、調整,為什麼呢?
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。
Thumbnail
今天學習繪製一圖4分格的作品 作品集1:四季美人圖 作品集2:誰吃了我的蘋果
Thumbnail
今天學習繪製一圖4分格的作品 作品集1:四季美人圖 作品集2:誰吃了我的蘋果
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
今日分享Gemini它是Bard 進階變升版,能力更強大了,不過我還是喜歡它的圖片辦示AI能力,尤其是在上課時常常會拍照老師上課的投影片或是看書覺得重要點會照片做筆記,之前需要回去之後再整理,但也是要花時間就偷懶,但是這次功能我一直很喜歡,讓我來示範。這次以【打造第二大腦】中有重點PARA運用,拍
Thumbnail
今日分享Gemini它是Bard 進階變升版,能力更強大了,不過我還是喜歡它的圖片辦示AI能力,尤其是在上課時常常會拍照老師上課的投影片或是看書覺得重要點會照片做筆記,之前需要回去之後再整理,但也是要花時間就偷懶,但是這次功能我一直很喜歡,讓我來示範。這次以【打造第二大腦】中有重點PARA運用,拍
Thumbnail
未來,針對圖片生成的 prompt engineering 可能會越來越不重要。
Thumbnail
未來,針對圖片生成的 prompt engineering 可能會越來越不重要。
Thumbnail
以​文字​建立​影像,有很多功能如下: 完成提示詞之後,選擇功能設定 1.模型版本:內有兩個模型 Image1屬於照片和插圖風格,Image2擬真人版風格,我還是喜歡Image2風格比較好看。 2.比例:3:4或4:3或1:1或16:9,這個有別於目前AI生圖都是1:1版型,這可以依據您想要使
Thumbnail
以​文字​建立​影像,有很多功能如下: 完成提示詞之後,選擇功能設定 1.模型版本:內有兩個模型 Image1屬於照片和插圖風格,Image2擬真人版風格,我還是喜歡Image2風格比較好看。 2.比例:3:4或4:3或1:1或16:9,這個有別於目前AI生圖都是1:1版型,這可以依據您想要使
Thumbnail
ChatGPT最擅長的就是文本處理,用來翻譯字幕應該也是一片蛋糕吧!但實際操作測試,卻發現沒那麼容易,原因是影片翻譯要考量的因素太多包括: ▪️時間戳記對齊 ▪️適合閱讀且中英文對照文句長度 ▪️貼合講者原意語氣風格 ▪️專業術語與專有名詞 還有GPT一次可以處理的資訊量有限,超過
Thumbnail
ChatGPT最擅長的就是文本處理,用來翻譯字幕應該也是一片蛋糕吧!但實際操作測試,卻發現沒那麼容易,原因是影片翻譯要考量的因素太多包括: ▪️時間戳記對齊 ▪️適合閱讀且中英文對照文句長度 ▪️貼合講者原意語氣風格 ▪️專業術語與專有名詞 還有GPT一次可以處理的資訊量有限,超過
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News