Google DeepMind 正式推出 Nano banana-Gemini 2.5 Flash Image

Hank吳

2025/08/29 更新2025/08/28 發佈閱讀 6 分鐘

在此之前，這款模型曾以「Nano Banana」的代號在 AI 模型評測平台 LMArena 上進行匿名測試，並因其出色的圖像生成與編輯能力，特別是在維持角色一致性方面的優異表現，引起了 AI 社群的廣泛關注和熱烈討論。

在2025年8月26日的官方發布中，Google 揭曉了這個神秘模型的真實身分，並宣布將其整合至 Gemini App 中，同時也透過 API 的形式提供給開發者使用。

使用過程對於圖片加中文字會變亂碼，英文字可以正常呈現。

例如:
1.上傳一張圖片 (此圖為之前用chatgpt產生的line圖片)

2. prompt: "把它變成電腦桌前面的立體公仔，螢幕顯示的是它的3D設計圖"

Gemini 2.5 Flash Image (Nano Banana) 是 Google DeepMind 專為快速、高效且可控的圖像生成與編輯所設計的先進模型。它不僅僅是單純的「文字到圖像」生成器，更像是一個能與使用者進行多輪對話、精準理解並執行複雜視覺指令的智慧創意夥伴。

以下是它的主要特性以及其背後的模型處理特性：

主要使用者特性 (Features)

* 對話式圖像編輯與生成 (Conversational Editing & Generation):

* 多輪對話能力：這是其核心亮點。你可以像與設計師對話一樣，逐步修改圖片。例如，你可以先說「生成一隻在草地上奔跑的黃金獵犬」，然後接著說「讓牠戴上一頂藍色帽子」，再接著「把背景換成沙灘」，模型會在同一個圖像基礎上進行迭代修改，而不是每次都生成全新的圖片。

* 高效率生成：模型生成圖像的速度非常快，通常在幾秒鐘內就能完成，使其非常適合需要快速產出或即時預覽的應用場景。

* 精準的指令遵循能力 (Precise Instruction Following):

* 局部編輯：你可以指定圖像的特定區域進行修改。例如，「只改變這輛車的顏色，其他部分不變」或「在圖片左上角加一個太陽」。

* 風格與構圖控制：模型能理解更細緻的藝術指令，如「使用梵谷的風格」、「採用廣角鏡頭的視角」或「讓畫面更有電影感」。

* 保持角色與物件一致性 (Character & Object Consistency):

* 這是在多輪對話和系列圖像生成中的一大突破。當你指定了一個角色（例如，「一個穿著紅色太空衣的太空人」），並要求模型為這個角色生成不同場景的圖片時（例如，「讓他在月球上跳躍」、「讓他在太空船裡喝咖啡」），Nano Banana 能高度保持該角色的外觀特徵（如服裝、臉部特徵）不變，解決了傳統 AI 繪圖工具在連續創作中角色形象不統一的痛點。

* 圖像融合與風格轉換 (Image Blending & Style Transfer):

* Inpainting/Outpainting：可以智慧地填補或擴展圖像的缺失部分。

* 混合圖像 (Image Blending)：可以將兩張圖片的元素或風格自然地融合在一起。

* 從參考圖學習：你可以提供一張參考圖片，讓模型學習其風格或特定元素，並應用到新的創作中。

核心模型處理特性 (Model Characteristics)

* 輕量級與高效率架構：

* 「Nano Banana」這個暱稱暗示了其模型的設計理念——像「Nano」一樣輕巧、快速。它建立在 Gemini 2.5 Flash 的高效架構之上，經過特別優化，大幅減少了計算資源的需求。這使得它能夠實現低延遲的即時互動，並且部署成本更低。

* 視覺語言整合的深度理解：

* 模型不僅僅是將文字標籤對應到視覺元素。它透過龐大的視覺與文字資料庫進行訓練，能夠深度理解自然語言指令中蘊含的空間關係、動作、風格和抽象概念，並將這些理解精準地轉化為像素級的視覺呈現。

* 強化的上下文記憶能力：

* 為了實現出色的多輪對話編輯和角色一致性，模型內建了強大的短期記憶機制。它能在整個對話過程中「記住」先前的圖像狀態、使用者指令以及生成的關鍵視覺元素（如角色的特定外觀），確保後續的每一步修改都是建立在連貫的上下文基礎之上。

* 擴散模型 (Diffusion Model) 的進階應用：

* 其底層技術很可能基於先進的擴散模型，但進行了大量改良。傳統擴散模型從隨機噪點開始生成圖像，而 Nano Banana 的模型則能夠從一張現有圖像的「潛在表示 (Latent Representation)」出發，根據指令對這個表示進行微調，然後再渲染出修改後的圖像。這種「圖像到圖像 (Image-to-Image)」的轉換方式是實現高效、精準編輯的關鍵。

總結來說，Gemini 2.5 Flash Image (Nano Banana) 的核心突破在於將高效的圖像生成能力與流暢的多輪對話互動無縫結合。它不僅僅是一個工具，更像是一個能聽懂、能記憶、能精準執行的視覺助理，極大地提升了創意工作的效率和可能性。

#模型

#Google

#生成

留言

留言分享你的想法！

Hank吳的沙龍

1會員

95內容數

這不僅僅是一個 Blog，更是一個交流與分享的空間。期待在這裡與你相遇，一起探索科技、體驗生活、夢想旅行！💖

Hank吳的沙龍的其他內容

2025/08/27

三魂七魄有哪些？典故是？

「三魂七魄」是中國古代關於靈魂的觀念，來源於道教、陰陽家與民間信仰。簡單來說：三魂屬於「陽」，主精神、意識、思維。七魄屬於「陰」，主形體、感覺、本能。三魂（屬陽，主神識）古籍中有不同說法，常見版本如下：胎光：主人的本命真靈，與生命根本有關。爽靈：主管人的精神與思維活動。

2025/08/27

三魂七魄有哪些？典故是？

2025/08/26

微軟最新語音技術 VibeVoice：能生成90分鐘多人對話的開源模型

VibeVoice 是微軟近期發布的一項尖端開源語音合成（Text-to-Speech, TTS）技術，它並非一款對一般消費者直接銷售的軟體，而是一個強大的底層模型，主要供給研究人員與開發者使用。其最引人注目的能力是能夠生成長達90分鐘、包含多達四位不同說話者的「超長篇」且富有情感的對話式音訊，為有

2025/08/26

微軟最新語音技術 VibeVoice：能生成90分鐘多人對話的開源模型

2025/08/20

血淚、慈悲與勇氣的交織：頭城搶孤百年傳承的緣由

每年農曆七月的尾聲，當夏日的暑氣漸消，蘭陽平原的海風帶來一絲涼意時，宜蘭頭城的空氣中便會開始瀰漫一股既莊嚴又躁動的氣息。數以萬計的人潮湧入這個寧靜的小鎮，目光全聚焦在那拔地而起、高聳入雲的巨大棚架「孤棚」。夜幕低垂，鑼鼓喧天，一場結合了宗教祭儀、民俗競技與集體記憶的年度盛事「頭城搶孤」正式拉開序幕。

2025/08/20

血淚、慈悲與勇氣的交織：頭城搶孤百年傳承的緣由

看更多

你可能也想看

創業經驗談

出國旅遊穿搭攻略｜WIWI 輕旅穿搭首選 × 蝦皮雙11活動限時優惠，保暖、防曬一次搞定！

每次出國旅行，最讓人頭痛的就是要穿什麼？不同國家的氣候差很大，從零下低溫到艷陽高照，一趟旅程可能要準備兩季的衣服！這次我整理出我出國最愛帶的 WIWI 輕旅穿搭清單，全部都能在蝦皮雙11活動期間用超優惠價格入手，還能同時參加蝦皮分潤計畫，一邊分享一邊賺旅費 💰 雙11優惠懶人包：

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

創業經驗談

出國旅遊穿搭攻略｜WIWI 輕旅穿搭首選 × 蝦皮雙11活動限時優惠，保暖、防曬一次搞定！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

成長痛WDKY的沙龍

POK萬能磁吸腳架心得分享，蝦皮買的手機腳架不專業開箱分享

大家好久不見，趁著連假有時間寫文來分享我這陣子的近況～大約 8 月中後的時候，我自己去了一小趟的釜山+福岡獨旅，主要是因為想讓自己沈澱放鬆，也加上自己好久沒有好好休息，所以希望可以有一段自己的時間。當然，也因為這次是獨自出發，所以身為小小自媒體工作者還是會需要拍照記錄一下生活，所以這次旅程還

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/06

成長痛WDKY的沙龍

POK萬能磁吸腳架心得分享，蝦皮買的手機腳架不專業開箱分享

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/06

Baozilla, Let's go!

20240726_TechNEws

OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」，由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布，該引擎能結合來自網路的即時資訊，讓使用者像與 ChatGPT 交談一樣搜尋。透過 SearchGPT，用戶能以自然語言提出問題（與使用 ChatGPT 交談方式相同

2024/07/26

Baozilla, Let's go!

20240726_TechNEws

2024/07/26

窩 World

NotebookLM：Google 結合 AI 最新推出的筆記本工具，讓你生成問題、快速摘要，以及建立專屬知識庫

隨著 AI 技術的進步，Google 推出了一款令人興奮的生產力工具—NotebookLM。這款結合 Gemini 1.5 Pro 模型的筆記本工具不僅能輕鬆生成問題、快速摘要文檔，還能幫助你建立專屬知識庫。今天，我將介紹 NotebookLM 是什麼、如何使用它，以及在三種不同情境中的應用方法。

#科技#學習#數位

2024/07/03

窩 World

NotebookLM：Google 結合 AI 最新推出的筆記本工具，讓你生成問題、快速摘要，以及建立專屬知識庫

#科技#學習#數位

2024/07/03

EC3

【 AI繪圖使用心得】

什麼是ＡＩ？ Artificial Intellgent ㄧ個數位大腦電腦新物種模擬人類的腦神經整合２Ｄ與３Ｄ的繪圖視覺在Bing 裡面基本上分為這幾個類型: 逼真的３Ｄ動畫動畫虛擬人偶展示攝影可愛貼圖二為圖例電腦科幻虛擬人偶公司標誌卡通電影海

2024/06/17

2024/06/17

AI -Gemini : 我鼓勵你探索自己的答案，並找到讓你感到充實和意義的東西。我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來？” “現在發生的事情的品質如何？” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型，在大量文字和程式碼...

2024/05/24

2024/05/24

Google Gemini 對比 ChatGPT：AI助手評測

這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現，並對比了它們在簡單問題、創作文本和回應短文等方面的效果。

#ChatGPT#AI#人工智慧

2024/04/30

樂子

Google Gemini 對比 ChatGPT：AI助手評測

這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現，並對比了它們在簡單問題、創作文本和回應短文等方面的效果。

#ChatGPT#AI#人工智慧

2024/04/30

大勢男寫手的沙龍

在香港如何使用 Google Gemini？

什麼是 Google Gemini？ Gemini 是 Google DeepMind 開發的多模態大型語言模型的尖端家族，繼 LaMDA 和 PaLM 2 之後。它於 2023 年 12 月 6 日宣布，包括 Gemini Ultra、Pro 和 Nano，旨在超越 OpenAI 的 GPT-4

#AI#科技

2024/04/19

大勢男寫手的沙龍

在香港如何使用 Google Gemini？

#AI#科技

2024/04/19

筱涵｜Hannah的沙龍

關於AI人工智慧所帶來的設計影響｜Adobe Firefly｜OpenAI的GPT-4一周年

去年的今天，OpenAI發表了GPT-4的版本。

#AI人工智慧#設計#Adobe

2024/03/15

筱涵｜Hannah的沙龍

關於AI人工智慧所帶來的設計影響｜Adobe Firefly｜OpenAI的GPT-4一周年

去年的今天，OpenAI發表了GPT-4的版本。

#AI人工智慧#設計#Adobe

2024/03/15

Homeless Cosmopolitans' 實驗沙龍

【科學科技一科燙手報 Mk.2】：Google新發表的開源AI模型Gemma | 燙手度4天

大部分的人都知道Open AI的ChatGPT，部份的人知道Perplexity一類的生成式AI模型，還有一些人知道Google研發的生成式AI模型：Gemini (意思是拉丁文的雙生)。但幾小時前開放給開發者及研究者的開源AI模型Gemma（意思是拉丁文珍貴的石頭）大概沒什麼知道，

#Gemma#Google#AI

2024/02/25

Homeless Cosmopolitans' 實驗沙龍

【科學科技一科燙手報 Mk.2】：Google新發表的開源AI模型Gemma | 燙手度4天

#Gemma#Google#AI

2024/02/25

手哥科科

Google 發表新 AI 模型 Gemini 1.5，提供更大的「腦容量」和效率

今天 Google 發表了最新的 AI 模型 Gemini 1.5，不只提高模型訓練和服務效率，而且擁有更強大的理解力，每次能處理的 token 長度更是一口氣突破 100 萬大關，是競爭對手 GPT-4 的 7.8 倍 (GPT-4 目前只提供最長 32K 長度)，可以處理更大量的資訊，也擁有更大

#Google#模型#GPT-4

2024/02/17