今天是2025年11月25日,星期二。楊老師剛從新北市三重下課,搭機捷回到中壢老街溪。
我很感謝主辦單位新北市手工藝公會,每次都會幫我準備澎湃的晚餐,讓我吃飽再開始上課。我一口吃著便當裡的美味鱈魚厚片,也關心了一下隨班提供服務的Susan美眉,有沒有幫自己買晚餐。她說:「有啊,老師別擔心我,我是在不吃、和吃很少中間的,我屬於吃不少的」,我哈哈大笑地說,我今天打算跟聽我的Podcast節目、看我部落格文章,但沒看過我本人的網友們說:「其實,楊老師是屬於好看和難看中間的,我是屬於好難看的!」
我相信大家的臉書及社群媒體,一定都被Google的那根香蕉洗版了。琳瑯滿目的資訊圖表及視覺化簡報都可以在10分鐘內輕鬆完成,解決了以前不會畫圖、沒有美感、簡報都是字的痛點。Google 真是超級超級厲害!
楊老師AI365 - Gemini 3 的五個黑科技
你可能會問,為什麼會叫做「香蕉」,而不是「芭樂」?「香蕉你個芭樂」哈哈,年輕人搞不好沒聽過這個歇後語,在楊老師年輕時,有些人喜歡率性地用一字經或三字經來問候別人,稍微文雅一點的人,可能會選用這句話來損人。
言歸正傳,為什麼叫做Nano Banana?有一說是因為,在它正式公佈 Google Gemini 2.5 的繪圖模型之前,Google 有先放在測試平台上給一些玩家試用。那時候它的型號叫做 "Nano",因為功能實在太令人驚艷,引起AI社群的朋友們奔相走告,上去玩他,大家就給 “Nano” 一個戲謔可愛的暱稱,叫做 "Banana"。然後這個 “banana” 的稱號就不脛而走啦!
至於剛剛說的「香蕉你個芭樂」,如果Google懂這個梗的話,或許下一代就叫做「芭樂」了,哈哈,一定會讓人拍案叫絕的。
Nano Banana 聽起來很親切可愛,但是千萬不要小看,裡面有一堆「黑科技」。它解決了過去,在 AI 繪圖世界中,最讓人頭痛的五個難題。是哪些難題呢?楊老師跟你說一下:包含最重要的「高度擬真角色一致性」、「精準文字渲染能力」、「多模態語境融合」、「對話式語意繪圖」、「物理級光影模擬」這五項,光是做到其中任何一項都是PRO級的,Google Gemini 3.0 PRO 居然可以做到五個好東西一次滿足,是「健達出奇蛋」嗎?還是真的是外星來的黑科技啊!
讓我們一個一個來看喔。他第一個厲害的地方「高度擬真角色一致性」。別人家的模型都是有「特徵漂移」的問題,主角換個動作就換張臉。但是 Nano Banana 展現了極強的 ID Consistency 能力,它能精確提取並鎖定人物的視覺嵌入向量 Visual Embeddings。簡單說,它能忠於畫面中主角的五官特徵,實現真正的「固定角色」連環畫面生成。
然後,他又擁有「精準文字渲染能力」,解決前一代 AI,只要畫面中有字都是「鬼畫符」的問題,圖形很漂亮,中文字畫得亂七八糟,看起來都好像鬼片,實在嚇死人。這一次,Gemini 3.0 PRO 引用他強大的 OCR 訓練數據,帶給我們精準的文字渲染技術。它不再是模仿字的形狀,而是能將你想出現的文字,精確無比地映射在畫面中。無論是海報標題還是 T 恤上的 Slogan,它都能做到幾乎100%正確的拼寫露出!這讓人超級喜歡的!
第三喔,他還有「多模態語境融合」。它不只是做到跟別人一樣的「看圖說故事」,它還可以做到強大的多條件控制。你可以同時餵給它三張圖,然後叫他用「第一張圖的構圖」+「第二張圖的畫風」+「第三張圖的人物」,模型能透過交叉注意力機制,像是一個雞尾酒的調酒師一樣,將這些不同維度的資訊完美解構並且重組,一張有融合三張圖優點的漂亮圖片,就這樣被他生出來了,每一次你去用他畫圖,都一定會忍不住發出驚嘆,而且超級有成就感的,當你展示給朋友看的時候,大家都會問說,阿你是怎麼做的。Google Gemini 就是這樣一個,不必自己打廣告,大家都樂於幫他背書,主動推薦、「呷好道相報」的病毒式行銷到極致捏。
還有還有,他還可以讓你用「對話式語意繪圖」,你不必受過什麼訓練,只要出一張嘴,跟他聊天就可以,這個模型就能透過語意分割,自動識別出畫面中的所有物件。你只要動動嘴巴說「那個,把左邊的路人擦掉」「把右邊那個人打馬賽克」,它都能聽得懂,而且精準地幫你執行,那很爽吧?實現我們一直以來的夢寐以求,就是「出一張嘴當大爺」,對不對?
最後一點,也是超級厲害的,他居然可以做到物理級光影模擬。依照你的指令畫出來的照片質感,每一張都跟真的一樣。因為它具備了類似 PBR,也就是物理基礎渲染的光影邏輯。它能準確去計算,包含景深、焦點外成像以及複雜的光線折射。也就是說,就連模糊的背景裡面也充滿了真實的細節,讓你的作品擁有電影級的質感。
你可能會想問,為什麼他做得到這些技術呢?楊老師跟你簡單講,讓你可以一聽就懂喔
首先,以前的 AI 只能做到「閉著眼睛猜你想要」。你跟它説「幫我畫一個長髮女生」時,它只能靠聽到的關鍵字去腦補,所以每次畫出來都不一樣。 但 Nano Banana 運用了最新的「原生多模態」技術,這讓它可以用「眼睛」去看你給他的參考照片或圖形。認真地將所看見的臉部特徵及結構,一五一十都記在腦海裡。所以當你叫它畫圖時,它是在看著照片在臨摹、寫生,當然就不會畫錯啦!
然後,他更厲害的是「畫出完全正確的中文字」,別忘記,Nano Banana 本來就是一個讀過很多書的大語言模型。以前的 AI 想要在畫面中寫字的時候,只能做到「畫出字的形狀」,就像小嬰兒在模仿大人的筆跡,所以就經常哇七扭八鬼畫符。 但現在,它能翻開自己腦袋裡內那一本字典,先看看字要怎麼寫,然後將他臨摹出來,就可以做到幾乎九成九像了!
另外,當你想要P圖時,他用自己自然語言理解的能力,聽懂你要的,然後當你說「把路人擦掉」的時候,他的大腦裡會啟動一種叫做「注意力機制」的功能。在心裡幫你指定的路人畫一個「隱形的圈圈」,然後告訴自己:「這個圈圈裡面要重畫,但圈圈以外的主角絕對不能碰到!」這就是為什麼它修圖修得這麼乾淨,這是不是就跟幫你畫圖的真人助理一樣,他也是將焦點放在你要改的那部分而已,其他就是畫出本來的樣子,照抄出來,所以可以局部改圖,改到維妙維肖。
最後,Google Gemini 的腦袋裡還有一個「虛擬攝影棚」,他會運用物理學原理,跟以前的AI只能「平面思考」完全不同等級,它不止可以模仿顏色的深淺。還會在腦海裡先建立一個3D 的虛擬攝影棚。當你說「光從左邊來」,它會真的去計算光線打在臉上,鼻子右邊應該要有陰影;當你說「大光圈」,它會計算物體離鏡頭多遠,越遠的越模糊。它不是在亂塗,它是在模擬真實世界的物理光學。
你看看,這麼厲害的 gemini Nano Banana 3.0 PRO,現在居然還讓你我可以每天免費玩,真是不讓其他AI活下去了。請大家有空沒空都要花時間去玩一玩,當你內化這個能力的時候,就可以用更好的效率把重要的事情做到更好,然後才可以將時間花在享受人生上面喔。


















