Google DeepMind 正式推出 Nano banana-Gemini 2.5 Flash Image

更新於 發佈於 閱讀時間約 6 分鐘

在此之前,這款模型曾以「Nano Banana」的代號在 AI 模型評測平台 LMArena 上進行匿名測試,並因其出色的圖像生成與編輯能力,特別是在維持角色一致性方面的優異表現,引起了 AI 社群的廣泛關注和熱烈討論。

​在2025年8月26日的官方發布中,Google 揭曉了這個神秘模型的真實身分,並宣布將其整合至 Gemini App 中,同時也透過 API 的形式提供給開發者使用。

使用過程對於圖片加中文字會變亂碼,英文字可以正常呈現。

例如:
1.上傳 一張圖片 (此圖為之前用chatgpt產生的line圖片)

raw-image

2. prompt: "把它變成電腦桌前面的立體公仔,螢幕顯示的是它的3D設計圖"

raw-image



Gemini 2.5 Flash Image (Nano Banana) 是 Google DeepMind 專為快速、高效且可控的圖像生成與編輯所設計的先進模型。它不僅僅是單純的「文字到圖像」生成器,更像是一個能與使用者進行多輪對話、精準理解並執行複雜視覺指令的智慧創意夥伴。

以下是它的主要特性以及其背後的模型處理特性:

主要使用者特性 (Features)

* 對話式圖像編輯與生成 (Conversational Editing & Generation):

* 多輪對話能力: 這是其核心亮點。你可以像與設計師對話一樣,逐步修改圖片。例如,你可以先說「生成一隻在草地上奔跑的黃金獵犬」,然後接著說「讓牠戴上一頂藍色帽子」,再接著「把背景換成沙灘」,模型會在同一個圖像基礎上進行迭代修改,而不是每次都生成全新的圖片。

* 高效率生成: 模型生成圖像的速度非常快,通常在幾秒鐘內就能完成,使其非常適合需要快速產出或即時預覽的應用場景。

* 精準的指令遵循能力 (Precise Instruction Following):

* 局部編輯: 你可以指定圖像的特定區域進行修改。例如,「只改變這輛車的顏色,其他部分不變」或「在圖片左上角加一個太陽」。

* 風格與構圖控制: 模型能理解更細緻的藝術指令,如「使用梵谷的風格」、「採用廣角鏡頭的視角」或「讓畫面更有電影感」。

* 保持角色與物件一致性 (Character & Object Consistency):

* 這是在多輪對話和系列圖像生成中的一大突破。當你指定了一個角色(例如,「一個穿著紅色太空衣的太空人」),並要求模型為這個角色生成不同場景的圖片時(例如,「讓他在月球上跳躍」、「讓他在太空船裡喝咖啡」),Nano Banana 能高度保持該角色的外觀特徵(如服裝、臉部特徵)不變,解決了傳統 AI 繪圖工具在連續創作中角色形象不統一的痛點。

* 圖像融合與風格轉換 (Image Blending & Style Transfer):

* Inpainting/Outpainting: 可以智慧地填補或擴展圖像的缺失部分。

* 混合圖像 (Image Blending): 可以將兩張圖片的元素或風格自然地融合在一起。

* 從參考圖學習: 你可以提供一張參考圖片,讓模型學習其風格或特定元素,並應用到新的創作中。

核心模型處理特性 (Model Characteristics)

* 輕量級與高效率架構:

* 「Nano Banana」這個暱稱暗示了其模型的設計理念——像「Nano」一樣輕巧、快速。它建立在 Gemini 2.5 Flash 的高效架構之上,經過特別優化,大幅減少了計算資源的需求。這使得它能夠實現低延遲的即時互動,並且部署成本更低。

* 視覺語言整合的深度理解:

* 模型不僅僅是將文字標籤對應到視覺元素。它透過龐大的視覺與文字資料庫進行訓練,能夠深度理解自然語言指令中蘊含的空間關係、動作、風格和抽象概念,並將這些理解精準地轉化為像素級的視覺呈現。

* 強化的上下文記憶能力:

* 為了實現出色的多輪對話編輯和角色一致性,模型內建了強大的短期記憶機制。它能在整個對話過程中「記住」先前的圖像狀態、使用者指令以及生成的關鍵視覺元素(如角色的特定外觀),確保後續的每一步修改都是建立在連貫的上下文基礎之上。

* 擴散模型 (Diffusion Model) 的進階應用:

* 其底層技術很可能基於先進的擴散模型,但進行了大量改良。傳統擴散模型從隨機噪點開始生成圖像,而 Nano Banana 的模型則能夠從一張現有圖像的「潛在表示 (Latent Representation)」出發,根據指令對這個表示進行微調,然後再渲染出修改後的圖像。這種「圖像到圖像 (Image-to-Image)」的轉換方式是實現高效、精準編輯的關鍵。

總結來說,Gemini 2.5 Flash Image (Nano Banana) 的核心突破在於將高效的圖像生成能力與流暢的多輪對話互動無縫結合。它不僅僅是一個工具,更像是一個能聽懂、能記憶、能精準執行的視覺助理,極大地提升了創意工作的效率和可能性。

留言
avatar-img
留言分享你的想法!
avatar-img
Hank吳的沙龍
0會員
82內容數
這不僅僅是一個 Blog,更是一個交流與分享的空間。 期待在這裡與你相遇,一起探索科技、體驗生活、夢想旅行!💖
Hank吳的沙龍的其他內容
2025/08/27
「三魂七魄」是中國古代關於靈魂的觀念,來源於道教、陰陽家與民間信仰。簡單來說: 三魂屬於「陽」,主精神、意識、思維。 七魄屬於「陰」,主形體、感覺、本能。 三魂(屬陽,主神識) 古籍中有不同說法,常見版本如下: 胎光:主人的本命真靈,與生命根本有關。 爽靈:主管人的精神與思維活動。
2025/08/27
「三魂七魄」是中國古代關於靈魂的觀念,來源於道教、陰陽家與民間信仰。簡單來說: 三魂屬於「陽」,主精神、意識、思維。 七魄屬於「陰」,主形體、感覺、本能。 三魂(屬陽,主神識) 古籍中有不同說法,常見版本如下: 胎光:主人的本命真靈,與生命根本有關。 爽靈:主管人的精神與思維活動。
2025/08/26
VibeVoice 是微軟近期發布的一項尖端開源語音合成(Text-to-Speech, TTS)技術,它並非一款對一般消費者直接銷售的軟體,而是一個強大的底層模型,主要供給研究人員與開發者使用。其最引人注目的能力是能夠生成長達90分鐘、包含多達四位不同說話者的「超長篇」且富有情感的對話式音訊,為有
2025/08/26
VibeVoice 是微軟近期發布的一項尖端開源語音合成(Text-to-Speech, TTS)技術,它並非一款對一般消費者直接銷售的軟體,而是一個強大的底層模型,主要供給研究人員與開發者使用。其最引人注目的能力是能夠生成長達90分鐘、包含多達四位不同說話者的「超長篇」且富有情感的對話式音訊,為有
2025/08/20
每年農曆七月的尾聲,當夏日的暑氣漸消,蘭陽平原的海風帶來一絲涼意時,宜蘭頭城的空氣中便會開始瀰漫一股既莊嚴又躁動的氣息。數以萬計的人潮湧入這個寧靜的小鎮,目光全聚焦在那拔地而起、高聳入雲的巨大棚架「孤棚」。夜幕低垂,鑼鼓喧天,一場結合了宗教祭儀、民俗競技與集體記憶的年度盛事「頭城搶孤」正式拉開序幕。
2025/08/20
每年農曆七月的尾聲,當夏日的暑氣漸消,蘭陽平原的海風帶來一絲涼意時,宜蘭頭城的空氣中便會開始瀰漫一股既莊嚴又躁動的氣息。數以萬計的人潮湧入這個寧靜的小鎮,目光全聚焦在那拔地而起、高聳入雲的巨大棚架「孤棚」。夜幕低垂,鑼鼓喧天,一場結合了宗教祭儀、民俗競技與集體記憶的年度盛事「頭城搶孤」正式拉開序幕。
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
隨著 AI 技術的進步,Google 推出了一款令人興奮的生產力工具—NotebookLM。這款結合 Gemini 1.5 Pro 模型的筆記本工具不僅能輕鬆生成問題、快速摘要文檔,還能幫助你建立專屬知識庫。今天,我將介紹 NotebookLM 是什麼、如何使用它,以及在三種不同情境中的應用方法。
Thumbnail
隨著 AI 技術的進步,Google 推出了一款令人興奮的生產力工具—NotebookLM。這款結合 Gemini 1.5 Pro 模型的筆記本工具不僅能輕鬆生成問題、快速摘要文檔,還能幫助你建立專屬知識庫。今天,我將介紹 NotebookLM 是什麼、如何使用它,以及在三種不同情境中的應用方法。
Thumbnail
什麼是 AI? Artificial Intellgent ㄧ個數位大腦 電腦新物種 模擬人類的腦神經 整合2D與3D的繪圖視覺 在Bing 裡面基本上分為這幾個類型: 逼真的3D動畫 動畫虛擬人偶 展示攝影 可愛貼圖 二為圖例 電腦科幻虛擬人偶 公司標誌 卡通電影海
Thumbnail
什麼是 AI? Artificial Intellgent ㄧ個數位大腦 電腦新物種 模擬人類的腦神經 整合2D與3D的繪圖視覺 在Bing 裡面基本上分為這幾個類型: 逼真的3D動畫 動畫虛擬人偶 展示攝影 可愛貼圖 二為圖例 電腦科幻虛擬人偶 公司標誌 卡通電影海
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
什麼是 Google Gemini? Gemini 是 Google DeepMind 開發的多模態大型語言模型的尖端家族,繼 LaMDA 和 PaLM 2 之後。它於 2023 年 12 月 6 日宣布,包括 Gemini Ultra、Pro 和 Nano,旨在超越 OpenAI 的 GPT-4
Thumbnail
什麼是 Google Gemini? Gemini 是 Google DeepMind 開發的多模態大型語言模型的尖端家族,繼 LaMDA 和 PaLM 2 之後。它於 2023 年 12 月 6 日宣布,包括 Gemini Ultra、Pro 和 Nano,旨在超越 OpenAI 的 GPT-4
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
今天 Google 發表了最新的 AI 模型 Gemini 1.5,不只提高模型訓練和服務效率,而且擁有更強大的理解力,每次能處理的 token 長度更是一口氣突破 100 萬大關,是競爭對手 GPT-4 的 7.8 倍 (GPT-4 目前只提供最長 32K 長度),可以處理更大量的資訊,也擁有更大
Thumbnail
今天 Google 發表了最新的 AI 模型 Gemini 1.5,不只提高模型訓練和服務效率,而且擁有更強大的理解力,每次能處理的 token 長度更是一口氣突破 100 萬大關,是競爭對手 GPT-4 的 7.8 倍 (GPT-4 目前只提供最長 32K 長度),可以處理更大量的資訊,也擁有更大
Thumbnail
2024 年,AI Boom 的第二年,我們總算可以撥開 AI 迷霧,逐一聊聊大型語言模型 (LLM) 的實際應用。On-Device AI 正快速進化,Google Gemini Nano 正式部署上手機,Apple 也發布最新論文彎道超車,改變了手機 AI 的未來發展。
Thumbnail
2024 年,AI Boom 的第二年,我們總算可以撥開 AI 迷霧,逐一聊聊大型語言模型 (LLM) 的實際應用。On-Device AI 正快速進化,Google Gemini Nano 正式部署上手機,Apple 也發布最新論文彎道超車,改變了手機 AI 的未來發展。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News