AI王座易主?! Google Gemini打敗GPT-5 ?! #18

2025/08/22 更新2025/08/22 發佈閱讀 18 分鐘

想要第一時間獲得市場上的最新資訊及分析嗎？
歡迎點擊下方連結訂閱【馬克觀點MKP】電子報，在即時更新資訊的同時，獲得最深入的分析～

科技發展的歷史裡，總有一些瞬間會成為轉折點。曾幾何時，OpenAI的GPT系列是AI世界的絕對霸主，每一次版本更新都像丟下一枚震撼彈，刷新大眾對生成式AI的想像。然而，萬眾期待的GPT-5並沒有延續那份驚艷。

大眾產生「落後感」不是因為它不夠聰明，而是純靠算力與文字的策略遇到瓶頸；GPT依舊是人類大型語言模型的技術傑作，只是GPT-5沒帶來期望中的質變，反而意外讓Alphabet(美股代號GOOGL)旗下的Gemini 2.5 pro討論度登頂。

事實上，Gemini 2.5 Pro不僅在多數基準測試中打平甚至超越GPT-5，更在成本效益、多模態原生整合和即時資訊處理方面確立了明顯的領先優勢。

這不是偶然，而是兩家巨頭在技術哲學、基礎設施、數據策略與生態整合上長年的佈局差異，終於發酵所致。

而在去年(2024)，AI業界普遍傳聞和分析「內部測試中GPT-4.5表現不如預期迫使OpenAI將其作為GPT-4的迭代版本發布」(亦即GPT-4.5其實原本是GPT-5)，事後來看，這個策略當時雖然保住了OpenAI的顏面，但浪費的多餘時間跟研發精力也讓它錯失了追趕Gemini架構演進的最佳時機。

(可能有點不太直觀，我們舉個例幫助大家理解：特斯拉的執行長馬斯克日前在財報Q2電話會議表示，因Optimus 3的設計架構將顯著優於Optimus 2，故研擬後將直接跳過第二代的量產，犧牲短期獲利，而直接將時間、資金、人力精力放在向前研發更好的第三代。如此以避免顧此失彼)

要看懂這場名次交替，就得拆開Gemini 2.5 pro成功的幾根支柱，還有GPT-5卡在「創新高原期」的瓶頸。(當然，我們期望這是暫時的，也希望GPT持續進步，畢竟科技的演進總是建立在技術的良性競爭之上)

【原生多模態(Native Multimodality) vs.後天拼接：從架構就領先】

Gemini最大的優勢，是它從設計第一天起，目標就不是單純的「語言模型」，而是一個天生懂文字、圖像、聲音、影片、程式碼的多模態”大腦”。

而GPT-5的原始路徑是「語言核心」。它原本是純文字理解專精，後來屢次更新後才加上可辨認圖片、輸入音訊的能力，透過轉譯成內部模型可懂的語言描述來理解內容；雖然可行，但多了「轉換損耗」，就像看外國電影時全靠字幕---能懂意思，但會漏掉細膩的文化語言體驗(如諧音雙關笑話、或地方諺語等)。

但Gemini不一樣之處在於，它的「母語」就是多模態(Multimodality)；聲音、畫面、文字在同一時間被處理，直覺地對應起來。假設讓它分析一段心臟手術教學影片並即時標示特定血管，GPT可能要先轉文字、再對照畫面，過程難免失準；Gemini則能像醫學生一邊聽講、一邊在螢幕上找到關鍵部位，無縫同步。這種架構優勢，讓它在跨領域的專業場景中表現更像人類專家。

【數據的廣、深、即時性：隱形燃料庫的差距】

架構是引擎，數據就是燃料。這方面Google的底子深到可怕。

OpenAI做為從非營利組織轉型的AI獨角獸，不像Google有眾多生態系原生數據，其訓練GPT只能用公開與已獲授權資料，但網路上優質資料早就被吃得差不多，想更上一層樓必須找更優質、更稀有、甚至是私有的數據。

Google從網際網路爆發時代成立至今，累積超過20年的龐大數據庫則是另一個級別，無論是在「廣度」(每天數十億次搜尋、數十億小時YouTube影片、數千萬本Google圖書、Google Scholar的學術論文、Google map的豐富地景/商家資訊/網民留言、Google cloud與Android上無數應用的互動行為)、「深度」(不只是文字，還有影片、圖像、程式碼、地理、行為模式)、「即時性」(搜尋與影片平台每天更新，Gemini能即刻吸收最新知識與趨勢，不受「知識截止日」困擾)，種種先天多樣態的數據優勢使其天生適合多模態訓練。

而生成式AI從初期只有文字生成，到近期受到高度關注的「影片生成」領域中，高品質「源自真實世界的」非公開授權影音數據無疑是其中最寶貴的資源。從這個角度來看，YouTube是最有價值的第一手資料庫之一，尤其是在人工智慧產業向多模態轉型，而影片功能需求與日俱增的情況下，雖然Gemini如同GPT-5，兩者本身都是語言模型而未支援直接影片生成，但Google憑藉Veo 3(Gemini中可使用)和Genie 3等工具在影音/圖形建模生成領域暫居領先地位。

這裡的用詞絕對不是中國式的領先，是真實的領先，舉例，下面的兩部影片(網址如註一，大家可點選連結觀看，it’s really amazing!)如果完全沒有先告訴你，你一定會以為是真的，但其實是Veo 3生成的，這點OpenAI的Sora仍略遜一大籌，部分影片仍帶「假感」，意即無法通過視覺圖靈測試，也就是說你肉眼感覺的出哪裡「好像不對勁」「怪怪的」，並且Sora在畫質上只支援到1080P、Veo 3則可到4K，而最大的差異就在於Veo 3能生成原生音效、人物對話與環境背景音，但Sora為「默劇」，所有聲音語音都需後製配音處理，這導致Sora只能用做創意導向，雖具真實感但仍有AI特有風格，而Veo 3則是高度逼真，看起來更像真人製作、難辨真假，其視覺真實度與物理可信度使其聲光音效都近乎影劇級，適合用做專業短片、廣告、新聞片、電影預告等真實品質內容創作。(對比影片詳註二)

目前Gemini與GPT最高階版本(各包含Veo 3、Sora)的訂閱費也差了1/3(前者台幣4000多對比後者6000多)；並且Google也善用其先天生態系優勢，不但Gmail、Google文件和Vids(影片製作與編輯工具)等服務直接享有AI最高用量上限，還加贈YouTube Premium、30 TB Google cloud容量…在性價比上完爆OpenAI…

Veo 3生成的影片截圖

Google也已經將Dream Screen(註三)等生成式工具和Veo導入YouTube，創作者能直接創作生成Shorts短影音，這讓他們大大提升製作影片的產能。

Genie 3亦為驚人之作，它的核心能力是將文字提示(prompt)即時轉化為可互動的、動態的虛擬世界。這與GPT完全不同，不僅僅是生成靜態的圖片，而是能讓使用者像在玩遊戲一樣，在720p解析度、24 FPS的環境中即時探索與互動。

雖目前尚處開發階段，最初的開發目的是為了是讓代理AI(Agentic AI，背景知識詳見MKP第6期)在數位孿生(背景知識詳見MKP第16期)中提供無限的訓練環境(註四)，並以之訓練未來能移植到物理世界的AGI(通用人工智慧)；

但預期未來商轉後，也可以前所未有的速度協助遊戲製作者生成以往全部需手工建模的場景，Mark預期會是其初步變現來源(因相較於為真實世界建模，單純為遊戲用途所使用的容錯率較高)，且Genie 3已經證明AI能夠快速生成可互動的虛擬世界，而未來這項技術肯定會從初步的遊戲和娛樂領域，擴展到工業設計、建築、城市規劃等更廣泛的專業應用，大大提升效率並降低成本。

Alphabet旗下的一系列產品，其覆蓋範圍之廣、深，正如其護城河一樣。

結果就是，GPT在回答時事、理解非主流文化、探討影音專業知識時，不一定能夠給出最好的答案，而Gemini得力於原生數據種類與數量的優勢，幾乎是與現實世界同步。

而在除了文字生成以外的領域，可以說Alphabet完勝OpenAI，並且很可能差距只會越來越大。

並且以上這些成就還有個幕後推手，即Google自研的第六代TPU，讓我們接著看下去。

【TPU基礎設施：AI算力的隱性槓桿】

訓練如前述章節這種超大型多模態模型需要恐怖的算力，而Google專利自研的TPU是王牌。

不同於OpenAI完全依賴NVIDIA的GPU，Google開發的TPU是為自家AI框架與架構量身打造，其效率，在特定AI運算下，量身打造的TPU能效比統一規格的外購GPU高很多(就像NBA球員穿著完全訂製的球鞋，肯定跟你在NIKE買的工廠量產版本有差)，代表其在相同電力消耗下可以做更多運算。

而規模化優勢，則讓Google能把成千上萬顆TPU串成一台龐大的協同超級計算機，軟硬體整合讓模型迭代速度更快。(MKP第16期有提到，在這點，其實NVIDIA也有NVLink系統來做串接，惟第一，東西終究不是OpenAI的，第二，NVIDIA也是外包給Astera公司合作。在雙重外包情況下，OpenAI的整合度肯定是比Google全都是自家體系差的)

當OpenAI受限於成本與供應鏈時，Google可以更豪邁地嘗試規模更大、結構更複雜的AI模型實驗。這種長期算力優勢，最終也反映在能力曲線上。

(但在AI開發以外，Google在cloud業務上仍有綜合搭配使用NVIDIA的產品，更多重要關聯分析詳見「註五」)

強勁的第二季財報也顯示，儘管Alphabet無論軟硬體，在人工智慧開發方面投入了大量資金，但其收入仍在增長，營業利潤率仍維持在30%，這是一般AI新創很難做到的，也消除了人們對人工智慧蠶食核心業務的擔憂。

十多年來，Google(Alphabet)一直是人工智慧研究領域無可爭議的投入者，事實上，早在2012年，Google在類神經網路研究領域就有驚人突破(最早的辨識貓狗故事)，但鑑於當時其在純搜尋領域的主導地位，Google一直沒有充分的理由將其研究成果商業化，直到今日，一切悄然不同(類似台積的CoWoS其實十幾年前就開發出來，只是一直因產能/性價比「冷凍」，直到近幾年的AI需求才大爆發)。鑑於Google調整戰略後重新聚焦的重點和龐大生態系統的先天優勢，對我們這些投資人來說無疑是件好事。

【生態滲透：從「工具」到「夥伴」】

最後一擊，來自Gemini幾乎無所不在的滲透策略。

GPT-5雖然比起過去的自己強，但多數人還是透過ChatGPT網站/app或嵌入微軟產品來用它；它是一個工具，你得主動想到去使用它，換句話說它是被動被使用的。

Gemini則反其道而行，直接主動融入數十億原本既有使用搜尋引擎用戶的日常(類似META的策略，只是META的用戶/客戶在社群平台)，目前已穩定建立4至4.5億月活躍用戶，隨著Gemini長上下文推理功能的增強，並與Google生態系更緊密的結合，這個數字仍在持續快速增長。

Google search的AI Overviews(為Gemini的嵌入形式)每月可覆蓋超過20億用戶，甚至讓ChatGPT的覆蓋範圍也相形見絀(截至2025/7月底約6至7億間)。

這樣的組合讓Google由過往只列連結，進化為先生成融合網際網路搜尋結果的摘要解答，再讓用戶依需求深入網頁(等於從過去大海撈針搜尋導向高精準投放，這對廣告商來說是很有吸引力的)。

要知道，不是所有人全都熟悉AI怎麼使用，甚至很多科技苦手或長輩是沒用過ChatGPT或不知道怎麼應用AI的，但Google直接導入搜尋引擎的AI Overviews直接吃下了這群人的覆蓋，讓Google Search從過去單純的「資訊索引者」轉變為「資訊歸納者」，用戶可以更快獲得複雜問題的答案，而不需要像過去自己點擊多個連結來拼湊資訊。

更有可能以之為出發點導向讓用戶使用旗下其他AI服務(比如Google Workspace幫你寫信、做摘要、分析數據，無縫接手重複工作)，這種從純網路搜尋引擎時代即建立起的「使用者基數霸權」優勢，是OpenAI無法觸及的！

這也會形成飛輪效應：”用戶互動→Gemini學習優化→生態價值提升→用戶更依賴→再提供更多數據”

另一個優勢護城河即為利用智慧型手機Android系統的高市佔率(70至72%之間)達到其新產品「Circle to Search」的高滲透率！

Circle to Search是Google在2024年初與三星系列手機一同發表的全新Android搜尋功能，目前也已在Google自家的Pixel手機上提供；核心設計概念為「在任何畫面，隨手一圈，立即搜尋」，最大的特點是你不需要離開目前正在使用的App，只要看到任何感興趣的人、事、物，就能直接對螢幕上的任何內容進行搜尋，這時你所在的App會暫時「凍結」，查詢完畢後，只需向下滑動或點擊「X」關閉，搜尋結果視窗就會消失，會立刻回到原本的App畫面，繼續先前的操作，整個過程完全不會中斷。

這點的使用者體驗與iPhone內建的翻譯功能非常類似，以Mark個人來說，目前我在iPhone中，即使知道Google翻譯的品質應該更好，但我仍更傾向使用蘋果原生內建的翻譯功能，原因就是切出切入太麻煩了！同理，預計「Circle to Search」也會為Google帶來一定程度的用戶黏著性，Google表示未來會將此功能逐步擴展到更多Android手機上！並且，對比META聯名雷鵬智慧眼鏡熱銷，Google也正在開發Android XR，專門用於智慧眼鏡的擴增實境(Augmented Reality, AR)和頭戴式裝置，像Circle to Search這種功能將是核心體驗之一。

Google所做的一切，都在讓人類的搜尋行為變得前所未有的直覺、快速且無縫；人類的好奇心使的我們天生就有追尋答案的天性，差別只是隨著科技的進步我們怎麼找答案，而不會停止「搜尋」。

Google管理層也指出，AI Overviews正在反過來推動搜尋引擎的查詢量達到兩位數成長(邏輯也很簡單，通常人們在獲得AI回覆後若仍有疑問，大概率會繼續追問)。因此，AI並非蠶食搜尋業務，而是增強了搜尋業務，我們亦知「使用量」能轉化為「獲利」，那麼實際上Alphabet正在建立其他公司不敢怠忽的優勢。

這與幾個月前的AI空頭說：「Google要完了，因為不再會有人用搜尋引擎」的片面說法完全相左，也更突顯了若投資科技股而不去深度研究硬核質性科技基本面的後果，因為若當你「只是因為」財報好而買入，本質上你還是不知道自己確切買了什麼；這點，相信有訂閱MKP馬克觀點的讀者們，已經走在99%散戶的前面，這也是本報期望帶給您的深度價值！

(但馬克也是要吃飯的，若以後有餘力，或者本報彙整的精實資訊讓你在一年內有賺超過一萬NTD，也歡迎免費期滿後轉為斗內訂閱支持，不然馬克可能過幾年還是得去甲頭路，相對的能產出的研究量就會少了些)

(無論如何，感謝你一路同行，這會讓MKP能持續產出更紮實的研究)

〖註一〗「不存在的車展」影片

一段「沒有花費任何演員費用」的廣告

〖註二〗Sora(OpenAI)對比Veo 3(Google)
(請注意，所有聲音都是從Veo 3來的，Sora不具聲音生成功能)

〖註三〗Dream Screen (夢幻背景)
允許Shorts的創作者透過輸入文字提示(prompt)，直接生成AI影片或圖片作為短影音的背景。這極大降低了創作門檻，創作者不再需要自己尋找或拍攝複雜的背景素材，只需發揮想像力，就能創造出以前難以實現或需要高成本搭建的視覺效果

〖註四〗
傳統上建立真實世界的數位孿生是一項非常耗時且昂貴的過程，需要大量的數據、圖紙、量測資訊，並由專業人員花費數月甚至數年來建模。
Genie 3這樣的生成式AI則提供了一種全新的、更快速的解決方案。這個應用方向也會是生成式AI和數位孿生領域最令人興奮的結合之一！

〖註五〗
Google在cloud業務上仍是使用NVIDIA的產品，原因是輝達的GPU生態系統，特別是CUDA軟體平台，讓Google某些可能不使用Google TensorFlow框架的cloud客戶也能靈活使用其他主流框架；這點我們也不得不承認NVIDIA在軟體平台的龐大先行者優勢，這也是為何即便AMD的MI系列晶片硬體效能已經趨近NVIDIA，但至少短期內市值仍不可能打敗輝達，因為AMD的軟體平台「ROCm」及其開發者生態圈仍遠不如NVIDIA的CUDA成熟。
另外，相較於專為特定任務設計的TPU，GPU更具通用性。除了AI用途，還能處理科學運算、圖形渲染等其他任務，這為Google cloud的客戶提供了更大的彈性，也因此，Google的雙軌策略為：
既用自己的TPU來降低對外部供應商的依賴並優化內部運算(以在AI領域保持競爭力)，同時亦採購NVIDIA的GPU，以滿足其雲端客戶的龐大需求。

馬克觀點Mark’s point——超越財報、深入質化基本面馬克觀點MKP

留言

馬克觀點Mark’s point——超越財報、深入質化基本面

22會員

95內容數

用專業、通俗的方式，講解大眾與分析師常忽略的質化「硬底子知識」，以幫助判斷企業的真正競爭力。我們著重於「觀點深入」、「拆解核心」、「科普但專業」，致力於幫助大家瞭解"你到底買了甚麼" 同時也不定期發送重要的投資資訊、產業趨勢、科技方向，以及價值投資觀念解析。

馬克觀點Mark’s point——超越財報、深入質化基本面的其他內容

2025/08/19

Robotaxi的發展如火如荼，你還覺得Tesla在畫大餅嗎？ #17

本期電子報來談談Robotaxi近期的進展，除了在德州奧斯汀擴大營運規模外，Tesla也正計劃在其他州插旗，相較於Waymo的光達+高精地圖的技術，特斯拉的AI+純視覺似乎更具優勢。

2025/08/19

Robotaxi的發展如火如荼，你還覺得Tesla在畫大餅嗎？ #17

2025/08/18

NVDA的AI飛輪：晶片算力→Omniverse #16

本期電子報討論NVDA在AI發展中，並不只喔有晶片算力的優勢，其打造的Omniverse更是組成AI飛輪的一環，公司可以透過採購GPU堆高算力，並於Omniverse上模擬各種狀況，再藉由模擬結果反饋至現實調整參數，再投入下一次的模擬，可以說Omniverse可以有效降低各種最小可行性方案的運行成本