
最近大家應該常常在社群看到那種「Nano Banana 生出公仔+包裝盒+背景是 3D 軟體介面」的示照片吧?說真的,看久了有點審美疲勞。我心裡反而在想:
這條香蕉,能不能幫我生出一系列有劇情的分鏡?
自從前一篇文章「AI|一次十張、再十張!我把 Nano Banana 畫漫畫的極限榨乾了」發佈後,我就一直在想,如果可以一次生成多張圖片,那用來做分鏡不就剛好嗎?
我的想法是這樣:如果它能一次生成連續的關鍵影格(Keyframe)當首尾圖,丟去生成多支短片,再接成一支完整影片的可能性就大了。於是我開始實測,三天、用三個帳號、超過 500 多張圖片,最後才找到比較穩定的做法。
過程很不輕鬆——我花了三天、三個帳號,生了超過 500 張圖,才慢慢找到讓它「乖乖合作」的方式。這篇文章就記錄我一路上的嘗試與心得,也許能幫到想用它來講故事的人。
備好參考圖片
Nano Banana 的一大特色是 多模態能力,也就是文字+圖片一起輸入。
- 最常見:上傳一張圖片,用提示詞修改。這部分大家應該都玩過,我就不贅述。
- 多圖融合:例如上傳兩個角色+一個道具,然後加上劇情描述,讓它幫我「排成一個畫面」。
- 所有上傳的參考圖片比例要一致,否則它會抓「最後一張上傳」的當作生成的比例。
- 角色表(Character Sheet)先準備好:最好先用一個站姿正面生成角色的不同姿勢、表情、角度,再用來合成在一個畫面中才會自然。

三張白色背景圖片搭配提示詞,生成兩張高度一致性的圖片
完整而具體的描述
很多人卡住的點,就是提示詞寫得太「單薄」。要記住:你的提示詞就是一份給 Banana 的簡報。
- 完整句子比單字好
舉例:「一隻咖啡色的金吉拉兔,在陽光灑落的草地上大步跳躍,背景是模糊的草叢。」
就比「一隻兔子在草地上」準確太多。 - 尺寸要明確
別說「小風鈴」,要寫「不超過手掌一半大小的風鈴」。 - 動作細節要精確
「用指尖捏著掛繩最上端」會比「拿著風鈴」更貼近你的想要。
所以,這次實驗最大的體會是:
成功的 Nano Banana 提示詞,不是詞彙堆砌,而是要提供一個故事或完整的視覺藍圖。 你描述得越完整,它就越能理解並實現你腦中的想法。

左邊:詳細描述「用指尖捏著風鈴上的吊繩頂端」|右邊:只寫「拿風鈴」

花點時間詳細描述(而且正確),也能讓動作精確到這種程度
運用攝影與藝術術語
不要忘了這條香蕉是學富五車:什麼領域的專業術語它都背起來了。
- 鏡頭與構圖:close-up(特寫)、wide-angle shot(廣角)、low-angle shot(低角度)⋯⋯等等的,儘管吩咐它。
- 光線與氛圍:soft natural light(柔和自然光)、backlit(逆光)、studio lighting(棚燈)⋯⋯等等的都能幫你定義場景氣氛。
- 藝術風格:Pop Art、Surrealism、Rococo、Baroque……,如果你說不出口,就找一張你想要的風格圖片,丟給任何一個 AI,它會告訴你這什麼風格。
換句話說,如果你懂一點攝影或繪畫術語,就能把 Banana 當一位攝影師、設計師或畫家來溝通。不懂也沒關係,就是功課做一下,找幾張圖片先給它看,它會告訴你這是什麼鏡頭、如何佈光、是什麼藝術風格。
迭代與對話式編輯
不要期待一次到位,你和 Nano Banana 的合作根本就是像和夥伴那樣用「聊的」。
- 逐步修改:先看它丟出的版本,你再說「背景亮一點」「旁邊加一隻鳥」。這樣它會慢慢貼近你的想法。
- 山不轉路轉:如果一組兩張的運鏡感圖片老是卡住,就先出一張,再用提示詞讓它「運鏡」
- 自然語言比 JSON 靠譜:我試過用 JSON 控制連續生成,但 Banana 常常搞混,甚至當成 meta 指令。反而是用自然語言的完整英文句子最有效。
- 不要自相矛盾:如果一直失敗,你也搞不清楚原因在哪,那麼有90%的可能就是「提示詞中有互相矛盾」。例如寫「廣角視野」卻又指定「焦距 50mm」,這就兜不起來。如果你自己找不到原因,就直接問它:「幫我檢查提示詞有沒有衝突。」這個意外地好用。
簡而言之,這過程很像導演排戲:一遍一遍修,最後才會得到理想版本。
一次多張的提示詞結構怎麼寫
要讓 Nano Banana 乖乖在一次對話中就把多張圖生出來,提示詞的結構上可以分成:
全域宣告:這一段用來描述全部圖片都用得到的,例如圖片風格、光線、氛圍等,還要跟它說「接下來每一段提示詞要獨立生成一張圖片,不要將圖片合併在一張」。
第一張輸出(第一張影格 –構圖主題描述):詳細描述圖片中的細節,如果你上傳了2個以上角色或道具圖片,就用「圖片檔名」來告訴 Nano Banana 「圖片檔名是誰」,這樣不僅可以幫你自己在寫提示詞時,分辨有沒有描述錯對象,對 Nano Banana來說,也不會混淆。
攝影機設定:在這裡描述鏡頭焦距、運鏡、光圈或快門等。
第 X 張輸出(第X張影格 –構圖主題描述):依據第一張的寫法仔細描述。其他依此類推。
攝影機設定:如前一段,描述這一張的攝影機參數。依此類推。‘
禁止事項(就是 AI 生圖平台常見的「負面提示詞」):例如不要在畫面中出現文字、不要有人、不要有⋯⋯等等。

如果不在一開頭就跟它說「勿將多個場景合併為拼貼畫或分割畫面」,就會生出這樣的切割組合畫面
簡而言之,這個結構和 HTML 等等的很像,不同之處就是用人類看得懂的自然語言說給它聽就行。
其他小發現
- 避開尖峰時段:晚上七點到十一點左右,特別容易罷工或亂丟東西應付你。
- 少量生成最穩:一次要求三到四張,成功率最高。
- 生成英文字最準:如果圖片中要有中文、日文,就常常出錯,尤其是漢字+假名。
- AI 需要你:你要不斷補細節,否則它很容易「自由發揮」到失控。

尖峰時刻就裝傻停擺(明明剛剛才生成好幾張)
提示詞不是咒語,而是分鏡指引
這三天的實測讓我更確信:
Nano Banana 不會因為你丟了幾個詞就變魔法師。它更像是一個合作者,需要你提供完整的故事結構和細節,才能幫你拼出腦中的畫面。
所以,與其把提示詞當咒語,不如把它當成「講故事的劇本」——
只要你描述得夠清楚,它就能幫你完成一張張連續的分鏡,甚至是一整段短片。



























