Google AI 新模型 Nano Banana 多圖融合換裝、角色一致性讓創作更自由

更新於 發佈於 閱讀時間約 5 分鐘

Google AI Studio網址:https://aistudio.google.com/prompts/new_chat

Google於2025年8月25日正式發布的最新一代圖像生成與編輯模型 Gemini 2.5 Flash Image 代號「nano-banana」。從底層就設計為多模態模型,具備深度語言理解能力,能夠在單一步驟中同時處理文字和圖像輸入。因此,輸入一段敘述性的段落會比一堆斷斷續續的字詞能生成更好圖像。

特點:

  • 對話式圖像編輯
    通過自然語言指令,就可以進行精確的目標編輯,如模糊背景、移除物件、改變姿勢或為黑白照片上色。
  • 多圖像融合技術
    可以參考多張輸入圖像融合生成一張視覺作品。
  • 角色與風格一致性
    官方敘述模型能夠維持角色、物件或風格在多個提示和圖像間的一致性,但個人感受對於熟悉的臉孔,仍然還是會感到不像,仍需要多加嘗試。技術上可以相比過去使用 Midjourney 為了「角色一致性」而使用 --cref --cw 來參照生成。

將生活照轉換成韓式形象照

Prompt: 「人物穿著 深藍色修身版西裝外套 搭配 白色襯衫,展現休閒西裝風格。拍攝場景為 攝影棚,背景為 灰色中性色調,燈光柔和均勻,營造自然專業的氛圍。人物 略微側身但仍直視鏡頭,保持自信、專業又親和的神態。」

Google AI Studio 提供多項進階設定,包括 Temperature、Top P 與 Safety settings 等。Temperature 負責控制生成內容的隨機性,高數值(如 0.95)能帶來更多創意與變化,降低至 0.7–0.8 則可提升人像的一致性;Top P 決定模型選字的多樣化範圍,數值越高輸出越豐富,越低則結果更集中、可預測;而 Safety settings 用於過濾不當內容,建議維持預設即可,不會影響專業人像處理,同時確保輸出安全。

raw-image

局部修圖

raw-image

Prompt: 「依照提供的男性人物角色照片,來生成在電腦螢幕中的有單色3D人物建模線稿,桌上有一個男性人物的塑膠玩具盒、以及彩色如照片男性人物一樣的塑膠立體雕塑模型、模型工具。背景是動漫公仔玩具、日式漫畫的房間。」

raw-image

融合多張圖片

Prompt: 「請將這些圖片融合成一張圖,每個物件和角色都不能缺漏。」

raw-image
raw-image

可依照草圖來生成

Prompt: 「根據動作草圖來生成兩隻貓互相打鬥,並呈現賽博龐克風格。」像是手繪火柴人就能生成指定動作。

raw-image
raw-image

指定替換紅框物件

Prompt: 「替換掉紅框中的桌子。」

raw-image

數學推理能力

Prompt: 「請補上∠B 的角度。」

raw-image
raw-image



技術規格與定價

模型規格

  • 輸入支援:文字字串、圖像、音頻和視頻文件,具備1M token上下文窗口
  • 輸出能力:圖像輸出,32K token輸出限制
  • 架構:稀疏混合專家(MoE)變換器,原生多模態支援
  • 圖像解析度:支援1024×1024像素圖像生成

定價:

每百萬輸出token收費30美元,每張圖像約0.039美元(基於每張圖像1290個輸出token)相比OpenAI的DALL-E 3便宜約40%

免費額度:

  • 每日500個請求
  • 每分鐘250,000個token
  • 完全免費使用,無地理限制

使用心得:

雖然是免費使用圖片生成,仍需要避免直接拿去商業使用,即便去除右小角可見浮水印,仍有隱藏的數位浮水印。免費32K的額度來生活試玩用途,或生成文章附圖已經非常夠用。Nano-Banana 對於語言的理解程度的確更好,既便一些細節沒有框選,也能夠理解並完成修改。細緻度也有提升,但個人仍覺得 Midjourney 細膩度與圖像解析度更強大些。

參考資料:

留言
avatar-img
留言分享你的想法!
avatar-img
林位青的沙龍
25會員
45內容數
林位青的沙龍的其他內容
2025/08/20
MGX 是一個多智能代理 AI 平臺,讓使用者能透過自然語言建立網站、部落格、遊戲等,無需編寫程式碼。它基於開源項目 MetaGPT,模擬軟體公司內不同角色的協同工作流程。MGX 提供兩種模式:工程師模式和團隊模式(模擬完整開發流程)。其特色包括接近人類可理解的專案流程、高度的可擴展性和靈活性。
Thumbnail
2025/08/20
MGX 是一個多智能代理 AI 平臺,讓使用者能透過自然語言建立網站、部落格、遊戲等,無需編寫程式碼。它基於開源項目 MetaGPT,模擬軟體公司內不同角色的協同工作流程。MGX 提供兩種模式:工程師模式和團隊模式(模擬完整開發流程)。其特色包括接近人類可理解的專案流程、高度的可擴展性和靈活性。
Thumbnail
2025/08/12
Mermaid是一個基於文字的圖表繪製工具,使用簡單的語法就能生成各種圖表,例如流程圖、時序圖、甘特圖等。它支援多個平臺,包括GitHub、Notion、VS Code等,方便使用者在文件、筆記、程式碼專案中嵌入可視化內容。本文將介紹Mermaid的使用步驟、應用場景和一些進階運用技巧。
Thumbnail
2025/08/12
Mermaid是一個基於文字的圖表繪製工具,使用簡單的語法就能生成各種圖表,例如流程圖、時序圖、甘特圖等。它支援多個平臺,包括GitHub、Notion、VS Code等,方便使用者在文件、筆記、程式碼專案中嵌入可視化內容。本文將介紹Mermaid的使用步驟、應用場景和一些進階運用技巧。
Thumbnail
2025/08/06
Gemini 推出 Storybook 功能,可根據提示詞生成圖文故事書,支援多種風格和語言,並可朗讀。此工具不僅能生成故事,代表 AI 應用更具個人化創作與參與式體驗。Storybook 可用於個人回憶創作、協助兒童理解複雜概念、親子共讀等。商業品牌亦可藉此進行品牌敘事式行銷,創造專屬故事。
Thumbnail
2025/08/06
Gemini 推出 Storybook 功能,可根據提示詞生成圖文故事書,支援多種風格和語言,並可朗讀。此工具不僅能生成故事,代表 AI 應用更具個人化創作與參與式體驗。Storybook 可用於個人回憶創作、協助兒童理解複雜概念、親子共讀等。商業品牌亦可藉此進行品牌敘事式行銷,創造專屬故事。
Thumbnail
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
隨著 AI 技術的進步,Google 推出了一款令人興奮的生產力工具—NotebookLM。這款結合 Gemini 1.5 Pro 模型的筆記本工具不僅能輕鬆生成問題、快速摘要文檔,還能幫助你建立專屬知識庫。今天,我將介紹 NotebookLM 是什麼、如何使用它,以及在三種不同情境中的應用方法。
Thumbnail
隨著 AI 技術的進步,Google 推出了一款令人興奮的生產力工具—NotebookLM。這款結合 Gemini 1.5 Pro 模型的筆記本工具不僅能輕鬆生成問題、快速摘要文檔,還能幫助你建立專屬知識庫。今天,我將介紹 NotebookLM 是什麼、如何使用它,以及在三種不同情境中的應用方法。
Thumbnail
什麼是 AI? Artificial Intellgent ㄧ個數位大腦 電腦新物種 模擬人類的腦神經 整合2D與3D的繪圖視覺 在Bing 裡面基本上分為這幾個類型: 逼真的3D動畫 動畫虛擬人偶 展示攝影 可愛貼圖 二為圖例 電腦科幻虛擬人偶 公司標誌 卡通電影海
Thumbnail
什麼是 AI? Artificial Intellgent ㄧ個數位大腦 電腦新物種 模擬人類的腦神經 整合2D與3D的繪圖視覺 在Bing 裡面基本上分為這幾個類型: 逼真的3D動畫 動畫虛擬人偶 展示攝影 可愛貼圖 二為圖例 電腦科幻虛擬人偶 公司標誌 卡通電影海
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
什麼是 Google Gemini? Gemini 是 Google DeepMind 開發的多模態大型語言模型的尖端家族,繼 LaMDA 和 PaLM 2 之後。它於 2023 年 12 月 6 日宣布,包括 Gemini Ultra、Pro 和 Nano,旨在超越 OpenAI 的 GPT-4
Thumbnail
什麼是 Google Gemini? Gemini 是 Google DeepMind 開發的多模態大型語言模型的尖端家族,繼 LaMDA 和 PaLM 2 之後。它於 2023 年 12 月 6 日宣布,包括 Gemini Ultra、Pro 和 Nano,旨在超越 OpenAI 的 GPT-4
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
今天 Google 發表了最新的 AI 模型 Gemini 1.5,不只提高模型訓練和服務效率,而且擁有更強大的理解力,每次能處理的 token 長度更是一口氣突破 100 萬大關,是競爭對手 GPT-4 的 7.8 倍 (GPT-4 目前只提供最長 32K 長度),可以處理更大量的資訊,也擁有更大
Thumbnail
今天 Google 發表了最新的 AI 模型 Gemini 1.5,不只提高模型訓練和服務效率,而且擁有更強大的理解力,每次能處理的 token 長度更是一口氣突破 100 萬大關,是競爭對手 GPT-4 的 7.8 倍 (GPT-4 目前只提供最長 32K 長度),可以處理更大量的資訊,也擁有更大
Thumbnail
2024 年,AI Boom 的第二年,我們總算可以撥開 AI 迷霧,逐一聊聊大型語言模型 (LLM) 的實際應用。On-Device AI 正快速進化,Google Gemini Nano 正式部署上手機,Apple 也發布最新論文彎道超車,改變了手機 AI 的未來發展。
Thumbnail
2024 年,AI Boom 的第二年,我們總算可以撥開 AI 迷霧,逐一聊聊大型語言模型 (LLM) 的實際應用。On-Device AI 正快速進化,Google Gemini Nano 正式部署上手機,Apple 也發布最新論文彎道超車,改變了手機 AI 的未來發展。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News