Google IO 2025 筆記

2025/06/10 更新2025/06/10 發佈閱讀 13 分鐘

Google 在 Google I/O 2025 大會上發表了多項關於人工智慧 (AI) 的重大進展與產品更新，重點圍繞著 Gemini 模型及其應用。

Gemini 模型的進展與演化

Google 表示，目前正處於 AI 平台轉型的全新階段，數十載的研究成果正在轉化為惠及大眾的實用工具。對 Google 來說，每一天都是 Gemini 季。自上屆 I/O 大會以來，Google 發布了十多種模型和研究突破，以及二十多種重要的 AI 產品和功能。模型的快速進步令人振奮。

Gemini 2.5 Pro 是 Google 迄今為止最好的模型，也是全球先進基礎模型。它的 Elo 分數比上一版本高出 142 分。更新版的 2.5 Pro 在 WebDev Arena 中一馬當先，在各大主流程式設計平台上備受追捧。它現在整合了 LearnLM，使其也成為全球出色的學習輔助模型。Google 正在進行最後調整，並將正式版模型在未來幾周內發布。
Gemini 2.5 Flash 被描述為 Google 極其高效的王牌模型，因出色的速度和較低的成本備受開發者青睞。新版 Flash 模型在幾乎每一個方面都有所改進，在各類重要基準測試中都取得了更好的成績，包括推理、程式設計和長上下文。它在 LMArena 排行榜上僅次於 2.5 Pro。Flash 預計於六月初正式上線。
Deep Think 是 Gemini 2.5 Pro 的新模式，它能將模型性能發揮到極致，帶來突破性的成果。Deep Think 採用思考與推理領域的先進研究，包括平行技術。Google 正在通過 Gemini API 向早期開發者開放此功能。
Gemini Diffusion 是一種領先的文字擴散實驗模型。它利用平行生成技術實現超低延遲，生成速度可達目前最快模型 2.0 Flash-Lite 的五倍。
Google 也開發了全新的文字轉語音功能預覽版，支持多講話人，能捕捉語氣和模式，並支持超過 24 種語言，甚至能無縫切換語言。Live API 也提供 2.5 Flash 原生音訊對話功能的預覽版。

這些進步都由卓越的基礎設施提供支持，例如第七代 TPU Ironwood，其性能達到上一代的十倍。

AI 採用率與影響

人工智慧的採用速度遠超以往。去年此時，Google 所有產品和 API 每月處理的詞元總量是 9.7 兆；如今，每月處理量達到了 480 萬兆，短短一年接近 50 倍的增幅。在 Google AI Studio 和 Vertex AI 中，有超過 700 萬名開發者使用 Gemini API 進行開發，是去年 I/O 大會時的五倍多。Gemini 在 Vertex AI 中的使用量增加到 40 多倍。

Gemini App 的月活躍用戶數已超過 4 億，尤其在使用 2.5 Pro 模型時，使用量增長了 45%。AI 概覽 (AI Overviews) 的月用戶量現已超過 15 億，在主要市場如美國、印度，AI 概覽推動查詢類型實現了超過 10% 的增長。

研究項目轉化為產品

Google 將多項早期的研究項目整合到產品中：

Project Starline 是突破性的 3D 視訊技術，現演進為全新的 AI 優先型視訊溝通平台 Google Beam。Beam 運用先進視訊模型將 2D 視訊流轉化為逼真的 3D 體驗。Google 熱切期待將這項技術帶給大家，並與惠普 (HP) 合作推出首款 Beam 設備。Starline 的底層技術也整合到 Google Meet 中，包括實時語音翻譯，目前支援英語與西班牙語互譯。
Project Astra 探索通用型 AI 助手未來理解你身邊世界的能力。Gemini Live 現已整合 Astra 的相機和螢幕共享功能，支持就你看到的任何事物展開對話。這項功能即日起面向所有 Android 和 iOS 用戶開放。Google 也在 Project Astra 的最新研究原型中展示了其協助修理自行車等任務的能力。
Project Mariner 是一種智能體 (Agent) 原型，可以與 Web 交互並完成各種任務。它能同時管理多達 10 個任務，並使用「示教與重複」功能學習任務。Project Mariner 的電腦使用能力將通過 Gemini API 向開發者提供。

AI 在 Google 產品中的應用

AI 正徹底改變 Google 的產品體驗：

Google 搜尋 (Google Search)：Gemini 模型正讓 Google 搜尋變得更智能、真實、個性化。除了現有的 AI 概覽，全新的 AI 模式 (AI Mode) 是對搜尋的全面重構，搭配更先進的推理能力。用戶可以向 AI 模式提出更長、更複雜的查詢，甚至是多輪追問。AI 模式利用「查詢扇出」(query fan-out) 技術將問題分解為子主題並同時發起大量搜尋。AI 模式即日起面向全美用戶開放。AI 模式即將增加的功能（先在實驗室測試）包括根據搜尋記錄提供個性化建議，以及關聯其他的 Google 應用（如 Gmail）的「個人使用場景」(Personal Context)。它也將引入 Deep Research 功能，替用戶發起數十次甚至數百次搜尋並生成專家級報告。AI 模式還能分析複雜數據並提供可視化圖表，例如棒球數據分析。借助 Project Mariner 的代理能力，AI 模式也能協助完成任務，如搜尋和購買活動門票、餐廳預訂和本地服務預約。整合 Project Astra 技術的「實時搜尋 (Search Live)」功能，讓 Google 搜尋能利用手機鏡頭實時感知用戶看到的畫面並提供信息。針對線上購物，AI 模式新增了視覺化購物功能，能根據用戶偏好生成圖片拼貼圖，並結合購物信息圖譜提供產品信息。此外，還推出了虛擬試穿 (Virtual Try-on) 功能，用戶可上傳照片查看服飾穿在自己身上的效果。未來的購物功能還包括價格追蹤 (Price Tracking) 和代理結帳 (Agent Checkout)。
Gemini 應用 (Gemini App)：Google 的目標是將 Gemini 打造成最個性化、最主動、最強大的 AI 助理。這始於「個人使用場景」功能，允許用戶在授權下與 Gemini 分享 Google 應用（如搜尋記錄、Gmail、雲端硬碟、文件）的背景信息，使其成為用戶的延伸。個性化將孕育主動型 AI 助理，例如預見考試並提供個性化測驗或講解視頻。Gemini Live 在應用中提供免費的相機和螢幕共享功能，並將能夠連接到日曆、地圖、Keep 和 Tasks 等應用。Deep Research 功能將支持上傳文件，並很快能與 Google 雲端硬碟和 Gmail 連接。Canvas 是 Gemini 提供的交互式協同創作空間，能將報告等內容轉換成網頁、信息圖、測驗、播客或互動模擬。
Chrome 中的 Gemini (Gemini in Chrome)：這將成為用戶在桌面端瀏覽網頁時的 AI 助理，能直接理解當前頁面內容並提供針對性解答。這項功能將向美國地區的 Gemini 訂閱者推出。
Gmail：AI 技術的智能回复功能頗受歡迎。個性化智能回复能效仿用戶口吻，並查看用戶雲端硬碟、舊郵件、文件中的信息來生成詳細回复。這項功能將於今年夏天在 Gmail 中提供給訂閱者。

生成式 AI 工具

生成式媒體技術正在拓展創意表達的可能性。Google 推出了多款先進的生成模型：

Imagen 4 是 Google 旗下最先進、功能最强大的圖像生成模型，正式在 Gemini 應用上推出。它生成的圖像質量更高、色彩更細膩、細節更精細，並大幅提升了文字和排版能力。
Veo 3 是 Google 最先進的文字轉影像工具。它具有出色的視覺質量和對物理規律的強大理解。最大的突破在於實現了原生音訊生成，可以生成音效、背景音甚至對話，讓內容創作進入音訊和視訊結合的新時代。
Lyria 2 是文字轉音樂工具，可以生成高保真音樂和專業級音訊，包含獨唱和合唱人聲部分。它已向企業用戶和 YouTube 創作者、專業音樂人開放。

結合圖像、影像和音樂生成功能，Google 推出了一款全新的 AI 電影製作工具 Flow。Flow 整合了 Veo、Imagen 和 Gemini 的技術，提供簡便的界面上傳素材或即時生成圖像，並能根據提示將素材組合、保持角色和場景的一致性，甚至延長素材片段。

為應對 AI 生成內容的識別問題，Google 兩年前開創了 SynthID 技術，能在生成媒體內容中嵌入不可見的水印。新推出的 SynthID 檢測器能夠識別圖像、音訊、文本或視訊中是否含有 SynthID 水印。

硬體與全新體驗

Google 正在探索 AI 與現實世界的互動方式：

Android XR 是首個在 Gemini 時代構建的 Android 平台，支持頭戴設備、智能眼鏡等各種設備。Gemini 將成為 Android XR 的核心，能夠以更豐富的方式理解上下文和意圖，全天候提供支持。三星的首款 Android XR 頭戴式裝置 Project Moohan 將於今年晚些時候發售。Android XR 智能眼鏡將變得輕巧，內建鏡頭和麥克風讓 Gemini 能「看到」和「聽到」世界，並通過顯示屏提供信息。現場展示了 Android XR 智能眼鏡的實時功能，例如識別咖啡店名稱、顯示照片、提供導航、安排日程和進行實時翻譯（儘管演示遇到了一些挑戰）。Google 正與三星深化合作，並與 Gentle Monster 和 Warby Parker 等眼鏡制造商合作打造時尚智能眼鏡。

AI 的廣泛影響

Google DeepMind 長期致力於將 AI 應用於科學領域，取得了多項突破，包括 AlphaProof (數學)、Co-Scientist (研究協作)、AlphaEvolve (科學發現、AI 訓練加速)。在生命科學領域，有 AMIE (醫療診斷研究系統)、AlphaFold 3 (預測分子結構與相互作用)，以及基於 AlphaFold 的 Isomorphic Labs (藥物研發)。

在無障礙功能方面，Project Astra 展示了其潛力。例如，與 Aira 合作，利用 Astra 技術創建原型，幫助盲人和低視力人群探索世界，由 Aira 的翻譯人員監督安全性。

AI 也應用於解決實際問題，例如與合作夥伴構建 FireSat 衛星星座，利用多光譜衛星圖像和 AI 提供近乎實時的野火觀測數據。在應急響應中，AI 也幫助 Wing 在海倫颶風期間用無人機投送物資。

Google 相信，如果以安全和負責任的方式進行，AI 有望加速科學發現進程，並成為有史以來最有益的技術。未來的可能性令人嚮往，包括實用機器人、疾病治療、量子計算機發展、全自動駕駛汽車等，許多都有可能在幾年內實現。

AI 訂閱方案

Google 將升級 AI 訂閱方案，推出 Google AI Pro 和全新的 Google AI Ultra。Google AI Pro 面向全球推出，提供全套 Google AI 產品的使用權、更高的用量限額和特殊功能（包括 Gemini App 的 Pro 版本）。Google AI Ultra 今天僅面向美國推出，專門面向行業開拓者和先行者，提供最高用量限額和搶先體驗 Google 發布的各項新產品和功能（例如 Gemini 2.5 Pro Deep Think、Veo 3 和 Flow），還附贈 YouTube Premium 會員和大量儲存空間。Ultra 方案月付高達 249.99 美元。

留言

留言分享你的想法！

Kiki的沙龍

4會員

51內容數

心繫正體中文的科學家，立志使用正體中文撰寫文章。此沙龍預計涵蓋各項資訊科技知識分享與學習心得

Kiki的沙龍的其他內容

2025/05/31

2025 COMPUTEX DGX HGX MGX 剖析

在COMPUTEX 2025展會上，各家伺服器廠商展示了其最新一代的AI運算系統，包括針對個人使用的DGX系列、數據中心級的HGX平台以及模組化的MGX架構。這些產品代表了AI基礎設施的最新發展，為從邊緣到雲端的AI運算帶來明顯的性能提升。本文將深入分析這些系統的技術創新之處及其對AI產業的影響。

2025/05/31

2025 COMPUTEX DGX HGX MGX 剖析

2025/05/11

MCP 與資料庫的互動與資料文件化

MCP（Model Context Protocol）在各大廠正式宣布採用後，一舉引爆熱潮，這次我想將結合MCP與資料庫和文件的範例分享給大家。

2025/05/11

MCP 與資料庫的互動與資料文件化

MCP（Model Context Protocol）在各大廠正式宣布採用後，一舉引爆熱潮，這次我想將結合MCP與資料庫和文件的範例分享給大家。

2025/04/27

自己在家組Ollama大語言模型伺服器

Meta 推出了開源大型語言模型 Llama。這一代特別引人注目，因為 80 億參數的模型小到可以在家用電腦上運行，效能卻不輸比它大十倍的模型。在許多應用場景下，它給出的回應品質已經能媲美 GPT-4。在這篇文章裡，我會說明自架 Llama 3 的優缺點，並提供設定方式與資源，讓讀者也能輕鬆動手。

2025/04/27

#AI 的其他內容

《鴻海已經達標5月預期的估值，而2026年還有多少本益比想像價值?》

普普文創

【踏青漫步】剪刀石山 258公尺

林位青的沙龍

Google Stitch 生成 UI 介面設計，加速產品原型開發與協作

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15