外星來的黑科技Nano Banana 3 PRO

2025/11/27 更新2025/11/25 發佈閱讀 8 分鐘

今天是2025年11月25日，星期二。楊老師剛從新北市三重下課，搭機捷回到中壢老街溪。

我很感謝主辦單位新北市手工藝公會，每次都會幫我準備澎湃的晚餐，讓我吃飽再開始上課。我一口吃著便當裡的美味鱈魚厚片，也關心了一下隨班提供服務的Susan美眉，有沒有幫自己買晚餐。她說：「有啊，老師別擔心我，我是在不吃、和吃很少中間的，我屬於吃不少的」，我哈哈大笑地說，我今天打算跟聽我的Podcast節目、看我部落格文章，但沒看過我本人的網友們說：「其實，楊老師是屬於好看和難看中間的，我是屬於好難看的！」

我相信大家的臉書及社群媒體，一定都被Google的那根香蕉洗版了。琳瑯滿目的資訊圖表及視覺化簡報都可以在10分鐘內輕鬆完成，解決了以前不會畫圖、沒有美感、簡報都是字的痛點。Google 真是超級超級厲害！

楊老師AI365 - Gemini 3 的五個黑科技

你可能會問，為什麼會叫做「香蕉」，而不是「芭樂」？「香蕉你個芭樂」哈哈，年輕人搞不好沒聽過這個歇後語，在楊老師年輕時，有些人喜歡率性地用一字經或三字經來問候別人，稍微文雅一點的人，可能會選用這句話來損人。

言歸正傳，為什麼叫做Nano Banana？有一說是因為，在它正式公佈 Google Gemini 2.5 的繪圖模型之前，Google 有先放在測試平台上給一些玩家試用。那時候它的型號叫做 "Nano"，因為功能實在太令人驚艷，引起AI社群的朋友們奔相走告，上去玩他，大家就給 “Nano” 一個戲謔可愛的暱稱，叫做 "Banana"。然後這個 “banana” 的稱號就不脛而走啦！

至於剛剛說的「香蕉你個芭樂」，如果Google懂這個梗的話，或許下一代就叫做「芭樂」了，哈哈，一定會讓人拍案叫絕的。

Nano Banana 聽起來很親切可愛，但是千萬不要小看，裡面有一堆「黑科技」。它解決了過去，在 AI 繪圖世界中，最讓人頭痛的五個難題。是哪些難題呢？楊老師跟你說一下：包含最重要的「高度擬真角色一致性」、「精準文字渲染能力」、「多模態語境融合」、「對話式語意繪圖」、「物理級光影模擬」這五項，光是做到其中任何一項都是PRO級的，Google Gemini 3.0 PRO 居然可以做到五個好東西一次滿足，是「健達出奇蛋」嗎？還是真的是外星來的黑科技啊！

讓我們一個一個來看喔。他第一個厲害的地方「高度擬真角色一致性」。別人家的模型都是有「特徵漂移」的問題，主角換個動作就換張臉。但是 Nano Banana 展現了極強的 ID Consistency 能力，它能精確提取並鎖定人物的視覺嵌入向量 Visual Embeddings。簡單說，它能忠於畫面中主角的五官特徵，實現真正的「固定角色」連環畫面生成。

然後，他又擁有「精準文字渲染能力」，解決前一代 AI，只要畫面中有字都是「鬼畫符」的問題，圖形很漂亮，中文字畫得亂七八糟，看起來都好像鬼片，實在嚇死人。這一次，Gemini 3.0 PRO 引用他強大的 OCR 訓練數據，帶給我們精準的文字渲染技術。它不再是模仿字的形狀，而是能將你想出現的文字，精確無比地映射在畫面中。無論是海報標題還是 T 恤上的 Slogan，它都能做到幾乎100%正確的拼寫露出！這讓人超級喜歡的！

第三喔，他還有「多模態語境融合」。它不只是做到跟別人一樣的「看圖說故事」，它還可以做到強大的多條件控制。你可以同時餵給它三張圖，然後叫他用「第一張圖的構圖」+「第二張圖的畫風」+「第三張圖的人物」，模型能透過交叉注意力機制，像是一個雞尾酒的調酒師一樣，將這些不同維度的資訊完美解構並且重組，一張有融合三張圖優點的漂亮圖片，就這樣被他生出來了，每一次你去用他畫圖，都一定會忍不住發出驚嘆，而且超級有成就感的，當你展示給朋友看的時候，大家都會問說，阿你是怎麼做的。Google Gemini 就是這樣一個，不必自己打廣告，大家都樂於幫他背書，主動推薦、「呷好道相報」的病毒式行銷到極致捏。

還有還有，他還可以讓你用「對話式語意繪圖」，你不必受過什麼訓練，只要出一張嘴，跟他聊天就可以，這個模型就能透過語意分割，自動識別出畫面中的所有物件。你只要動動嘴巴說「那個，把左邊的路人擦掉」「把右邊那個人打馬賽克」，它都能聽得懂，而且精準地幫你執行，那很爽吧？實現我們一直以來的夢寐以求，就是「出一張嘴當大爺」，對不對？

最後一點，也是超級厲害的，他居然可以做到物理級光影模擬。依照你的指令畫出來的照片質感，每一張都跟真的一樣。因為它具備了類似 PBR，也就是物理基礎渲染的光影邏輯。它能準確去計算，包含景深、焦點外成像以及複雜的光線折射。也就是說，就連模糊的背景裡面也充滿了真實的細節，讓你的作品擁有電影級的質感。

你可能會想問，為什麼他做得到這些技術呢？楊老師跟你簡單講，讓你可以一聽就懂喔

首先，以前的 AI 只能做到「閉著眼睛猜你想要」。你跟它説「幫我畫一個長髮女生」時，它只能靠聽到的關鍵字去腦補，所以每次畫出來都不一樣。但 Nano Banana 運用了最新的「原生多模態」技術，這讓它可以用「眼睛」去看你給他的參考照片或圖形。認真地將所看見的臉部特徵及結構，一五一十都記在腦海裡。所以當你叫它畫圖時，它是在看著照片在臨摹、寫生，當然就不會畫錯啦！

然後，他更厲害的是「畫出完全正確的中文字」，別忘記，Nano Banana 本來就是一個讀過很多書的大語言模型。以前的 AI 想要在畫面中寫字的時候，只能做到「畫出字的形狀」，就像小嬰兒在模仿大人的筆跡，所以就經常哇七扭八鬼畫符。但現在，它能翻開自己腦袋裡內那一本字典，先看看字要怎麼寫，然後將他臨摹出來，就可以做到幾乎九成九像了！

另外，當你想要P圖時，他用自己自然語言理解的能力，聽懂你要的，然後當你說「把路人擦掉」的時候，他的大腦裡會啟動一種叫做「注意力機制」的功能。在心裡幫你指定的路人畫一個「隱形的圈圈」，然後告訴自己：「這個圈圈裡面要重畫，但圈圈以外的主角絕對不能碰到！」這就是為什麼它修圖修得這麼乾淨，這是不是就跟幫你畫圖的真人助理一樣，他也是將焦點放在你要改的那部分而已，其他就是畫出本來的樣子，照抄出來，所以可以局部改圖，改到維妙維肖。

最後，Google Gemini 的腦袋裡還有一個「虛擬攝影棚」，他會運用物理學原理，跟以前的AI只能「平面思考」完全不同等級，它不止可以模仿顏色的深淺。還會在腦海裡先建立一個3D 的虛擬攝影棚。當你說「光從左邊來」，它會真的去計算光線打在臉上，鼻子右邊應該要有陰影；當你說「大光圈」，它會計算物體離鏡頭多遠，越遠的越模糊。它不是在亂塗，它是在模擬真實世界的物理光學。

你看看，這麼厲害的 gemini Nano Banana 3.0 PRO，現在居然還讓你我可以每天免費玩，真是不讓其他AI活下去了。請大家有空沒空都要花時間去玩一玩，當你內化這個能力的時候，就可以用更好的效率把重要的事情做到更好，然後才可以將時間花在享受人生上面喔。

留言

留言分享你的想法！

楊老師AI365 | 生成式AI職場應用

74會員

49內容數

歡迎來到楊老師的生成式AI沙龍！這裡輕鬆帶你掌握GenAI的基礎概念，透過生活化案例幫助你了解AI如何影響工作與創造價值。我也會分享多年教學與輔導經驗，帶你掌握AI國際認證的考試技巧與學習心法。更重要的是，從教育、美容、製造、銷售等百工百業出發，帶你一步步認識各行各業如何實際導入AI，成為這波數位轉型浪潮中的領航者！

楊老師AI365 | 生成式AI職場應用的其他內容

2025/11/24

AGI如果來，我會不會失業？

AGI 預計在 2027 至 2030 年間實現，它將從單一任務進化到「全流程自主決策」的超級全才。AGI 的到來會對全球超過六成工作產生影響，擠壓重複性勞動的薪資，但同時也迫使人類往「高度創意、情感協商」等更像人的工作移動。社會權力將重新洗牌，擁有 AGI、算力與數據的人將成為新富豪，財富更集中。

2025/11/24

AGI如果來，我會不會失業？

2025/11/23

別想用殭屍網路攻擊來癱瘓我的社區

楊老師的社區網路在今天遭受來自荷蘭、中國大陸和印度三路的駭客聯軍攻擊，包括暴力破解、Telnet攻擊及SSH掃埠，企圖癱瘓網路。楊老師關閉API通道、Telnet，並限制SSH登入，成功在第一時間壓制了所有攻擊。楊老師提醒說，未來AI Agent組織的殭屍網路攻擊將更自動化、更精準，大家要提高警覺。