下面這篇文章由 Google DeepMind 的主管撰寫,我認為對喜歡使用 AI 生成影像的人來說非常有參考價值。我用 AI 將原文完整翻譯成中文分享給大家,若可以讀英文,可直接前往原文網頁閱讀。特別是提示詞 (prompts) 的部分建議盡量使用英文,效果最佳。
原文:7 tips to get the most out of Nano Banana Pro
作者:Bea Alessio, Google DeepMind 產品管理部門經理
我們最新推出的影像生成與編輯更新—— Nano Banana Pro(Gemini 3 Pro Image)——在文字呈現、世界知識、創意控制等方面都有大幅進步。以下是一些小技巧,幫助你充分發揮這款模型的威力。

我們替 Nano Banana 做了一次超大升級。
基於 Gemini 3 打造,Nano Banana Pro 是我們目前最先進的影像模型,能完美銜接想像力與專業級影像製作之間的差距。 它現在已可在 Gemini App 使用,並正陸續在 AI Studio、Vertex 等平台上推出。此版本具備跨多語言的最先進文字渲染能力,以及高階控制功能,例如可在單一組圖中輸入最多 14 張圖片(依平台而異)。
想開始體驗這款強大的新模型,可以先看看我們的發佈文章,以及以下的專業提示詞,幫助你打造更有效的高品質提示詞。
建立影像願景:故事、主題與風格
想獲得最佳成果並擁有更細膩的創意控制力,你可以在提示詞中加入以下元素
- 主體(Subject):畫面中是誰或什麼?請具體描述。例如:有著藍色發光眼部的冷靜機器人咖啡師;戴著迷你巫師帽的蓬鬆三花貓
- 構圖(Composition):畫面是怎麼取景的?例如:特寫、廣角、低角度拍攝、肖像構圖。 - 行動(Action):主體在做什麼?例如:正在沖煮一杯咖啡、施放魔法、奔跑在草地上、動作定格瞬間
- 地點(Location):場景發生在哪裡?例如:火星上的未來咖啡館、雜亂的煉金術士圖書館、被金色夕陽照亮的草地 - 風格(Style):整體美學是什麼?例如:3D 動畫、黑色電影(film noir)、水彩畫、寫實風格、90 年代商品攝影。
- 編輯指令(Editing Instructions):若是修改現有圖片,請直接且明確。例如:把男人的領帶改成綠色、移除背景中的車子
細緻調整:相機、燈光與格式
雖然簡單的提示詞也能產生結果,但若你追求專業級呈現,就需要更精準的指示。撰寫提示詞時,試著跳脫基本描述,並考慮以下進階設定:
- 構圖與長寬比(Composition and aspect ratio):決定畫布的形式。例如:「9:16 直式海報」、「21:9 電影級寬畫面」 - 相機與燈光細節(Camera and lighting details):像電影攝影師一樣指揮畫面。例如:「低角度拍攝,景深淺(f/1.8)」、「黃金時刻的背光,形成長長的陰影」、「電影感調色,使用柔和的青色系」
- 特定文字呈現(Specific text integration):明確說出要出現的文字以及呈現方式。例如: 「將標題『URBAN EXPLORER』以粗體白色無襯線字體置於畫面上方」
- 事實性限制(Factual constraints,用於圖示、示意圖等):如需準確性,請明確指出;同時確保你提供的資訊本身就正確。例如:「需為科學上正確的剖面示意圖」、「確保畫面符合維多利亞時代的歷史準確度」
- 參考圖片的角色(Reference inputs):使用上傳圖片時,清楚描述每張圖片的用途。例如: 「使用圖片 A 作為角色姿勢參考,圖片 B 作為藝術風格,圖片 C 作為背景環境」
提示詞範例:展示多種創意技巧
不同的提示詞策略,可以幫你打造從寫實影像到奇幻世界的各種作品。以下是一些值得嘗試的技巧:
1. 生成具備精準文字渲染的畫面:銳利、清晰、可讀性高的文字,能幫你打造有衝擊力的海報、複雜的示意圖,甚至高細節的產品模型圖。
2. 運用真實世界知識創作:Nano Banana 基於 Gemini 3 Pro,能運用其真實世界知識與深度推理能力,產生精準、豐富又細緻的影像成果。
3. 翻譯與在地化你的概念:生成在地語言文字,或翻譯圖片內文字。你能看到產品以多語版本呈現的樣貌,適用於國際市場;也能製作不同地區使用的海報與資訊圖表。

說明文字: 一張黑白分鏡草圖,顯示電影場景的定場鏡頭 (establishing shot)、中景 (medium shot)、特寫 (close-up) 和主觀鏡頭 (POV shot)。
提示詞: 為這個場景製作分鏡腳本。

提示詞:製作一張圖片,內容是以土撥鼠能夠啃出的木頭拼出一句話:「How much wood would a woodchuck chuck if a woodchuck could chuck wood」。

提示詞: 製作一張資訊圖表 (infographic),展示如何製作荳蔻茶 (elaichi chai)。

提示詞: 將三個黃藍色罐子上的所有英文文字翻譯成韓文,同時保持其他所有內容不變。
4. 使用專業級控制來進行編輯:提供如同攝影棚般的高階調控,包含:光線、鏡位、焦距、色彩分級等,能直接影響畫面的專業呈現。
5. 精準調整尺寸:嘗試不同長寬比,並在多種產品上生成清晰銳利的 1K、2K、4K 高品質畫面。
6. 合成多張圖片並保持角色一致性:即使多位角色同時出現,也能維持外觀一致。可以將 6 到 14 張(依平台而異)彼此完全無關的圖片混合,創作出全新的合成作品。
7. 建立與維持你的品牌視覺風格:以一致的品牌風格進行渲染與套用,輕鬆視覺化各種設計概念。能將圖案、標誌、藝術作品自然披覆在 3D 物件與材質上——從服裝到包裝皆適用——同時保留真實光線與質感。

提示詞 1:設計一個帶有流暢感的圖形風格標誌,以 1960~1970 年代的復古美學為靈感,並以草圖為基礎但不需精確遵循,只需從中獲得概念。它的核心特色是一種受迷幻風格啟發的律動字體,字形柔軟、圓潤、流動。字母會被巧妙地扭曲、拉長、壓縮,放棄僵硬結構,彼此連接並形成一個統一、可辨識的形狀。這種技巧稱為書寫圖形(calligram),能巧妙結合文字與圖像,讓單字的形態本身視覺化其含義。單字「WAVE」會被藝術化排列成一道海浪的流動輪廓。整體設計形成一種聰明的視覺雙關,使訊息立即易懂又令人印象深刻。色彩選擇強化了復古感,僅使用雙色系:淺藍背景與深藍標誌,帶有溫暖、柔和或略帶泥土色調的氛圍。這種搭配讓作品更具懷舊魅力。整體效果洋溢著異想天開的復古感與巧妙的平面設計語彙,透過形與字的完美結合,以簡單、正向、直覺的方式傳達訊息,帶來立即且愉悉的視覺衝擊。
提示詞 2:現在請逐一建立完整的識別系統,並使用 10 張高品質模型圖(mockups),包含多種相關產品、廣告、看板、公車站牌等,每次產生一張,比例為 16:9。

提示詞: 把這個場景改成夜晚場景。

提示詞: 將焦點放在花朵上。

提示詞: 透過調整長寬比,為不同平台更改影像的外觀與風格。

提示詞: 將這些圖片合併成一張以 16:9 格式呈現、構圖適當的電影感影像,並把人台上的洋裝換成圖片中的那件洋裝。
關於目前的限制
在我們持續開發與微調模型的過程中,仍有一些地方需要改進:
1. 視覺與文字的精確度 渲染小字、細微細節,以及完全正確的拼字,有時可能無法百分之百到位。
2. 資料與事實準確性 對於依賴資料的視覺內容(例如示意圖、資訊圖表),請務必再次確認資訊是否正確。
3. 翻譯與在地化 多語言文字生成可能會出現語法錯誤,或忽略特定文化語境的細微差異。
4. 複雜編輯與影像合成 像是進階影像混合、光線調整等編輯,有時可能產生不自然的痕跡或破綻。
5. 角色特徵一致性 雖然大多時候表現穩定,但在多次編輯後,角色外觀或細節仍有可能出現些微差異。 我們正積極改善這些部分,也非常感謝你的創意與耐心,陪我們一起打造下一代的影像工具。























