EmbeddingGemma :Google 最新輕量級文字嵌入模型,能為終端裝置 AI 應用帶來什麼改變?

更新 發佈閱讀 7 分鐘

在 AI 應用的世界裡,有一項重要的基礎技術:文字嵌入(Text Embedding)。簡單來說,文字嵌入就是將文字轉換成電腦看得懂的「數字向量」,讓機器能夠理解詞語、句子甚至整篇文章的語意與關聯性。高品質的文字嵌入是打造搜尋引擎、推薦系統,以及檢索增強生成(RAG)應用的基石之一。

Google 在 2025 年 9 月 4 日推出一款全新的開源嵌入模型——EmbeddingGemma。這款模型不僅在同級別中表現頂尖,其輕量化的設計更使其能直接在手機、筆電等裝置上高效運行,甚至不需要網路連線。

raw-image

Introducing EmbeddingGemma: The Best-in-Class Open Model for On-Device Embeddings

輕量級、開放權重的文字嵌入模型

Google 推出的 EmbeddingGemma 是一款基於 Gemma 3 架構的輕量級、開放權重的文字嵌入模型。 它被設計用來在資源有限的裝置上高效運行,例如手機或個人電腦。

  • 同級最強效能:在 5 億參數以下的開源多語言文字嵌入模型中,EmbeddingGemma 在知名的 MTEB(Massive Text Embedding Benchmark)評測指標上排名最高,它的效能足以媲美許多體積是其兩倍的熱門模型。
  • 極致輕量化:模型總參數僅為 3.08 億,經過量化(Quantization)技術處理後,佔用的記憶體可以低於 200MB。這讓它能輕鬆在大部分的終端裝置上順暢運行。
  • 離線與隱私優先:由於模型可以直接在裝置上運作,使用者的資料無需上傳到雲端,大幅提升了應用的隱私性與安全性。這對於處理個人文件、電子郵件等敏感資訊的應用尤其重要。
  • 高度彈性與整合性:EmbeddingGemma 支援彈性的輸出維度,並已整合了眾多主流的 AI 開發工具,如 sentence-transformers、llama.cpp、LangChain 等,方便開發者快速上手。

EmbeddingGemma 亮點介紹

更輕、更快、更強:EmbeddingGemma 的設計理念

EmbeddingGemma 的模型大小為 3.08 億參數,這個設計使其非常適合在記憶體和運算能力都有限的裝置上部署。 模型本身基於最新的 Gemma 3 架構,並在超過 100 種語言的龐大資料集上進行訓練,確保了其強大的多語言理解能力。訓練資料涵蓋了網頁文件、程式碼、技術文件以及特定任務的合成資料,使其能夠應對從文件檢索到程式碼搜尋等多樣化的應用場景。

Google 特別強調其在 EdgeTPU(一種專為邊緣運算設計的硬體)上的表現,處理 256 個 token 的輸入時,推論時間可以低於 15 毫秒,實現了真正的即時互動。

不只是開源,更是「可微調」的彈性

開源是 EmbeddingGemma 的一大特性,但更重要的是它支援「微調」(Fine-tuning)。雖然預訓練的模型在通用場景下表現良好,但在特定專業領域(例如金融、醫療或法律),通用模型可能無法完全理解領域內的專有名詞和語意細微差異。

微調允許開發者使用自己的資料集,對模型進行二次訓練,使其更貼近特定應用的需求。例如,一間金融公司可以利用其內部文件和客戶問答紀錄來微調 EmbeddingGemma,讓模型更精準地理解金融公司內部不同類型帳戶之間的區別。經過微調後,當使用者查詢某類型帳戶的投資服務時,模型將能更準確地匹配到與該類型帳戶相關的文件,而不是回傳不相關的帳戶資訊。

俄羅斯套娃表示法:兼顧效能與效率的技術

EmbeddingGemma 的另一個技術亮點是採用了「俄羅斯套娃表示法學習」(Matryoshka Representation Learning, MRL)。傳統的嵌入模型會輸出一個固定長度的向量,例如 768 維。如果開發者因為儲存或運算效率的考量,需要一個較短的向量(例如 256 維),通常需要重新訓練一個全新的小模型。

MRL 技術則巧妙地解決了這個問題。它在訓練過程中,就將最重要的語意資訊集中在向量的前段。因此,開發者在使用時,可以根據需求直接「截斷」完整的 768 維向量,取其前 512、256 或 128 維來使用,而不會嚴重損失太多效能。這種設計提供極大彈性,讓開發者可以在模型品質與運算成本之間取得最佳平衡,無需為不同需求維護多個模型。

TN科技筆記的觀點

藉由 Google 近期的模型發佈,開發者將能夠在手機 App 中建立一個完全離線的 RAG 系統。例如先使用 EmbeddingGemma 讓手機能夠在沒有網路的情況下,搜尋你所有的個人筆記、電子郵件和訊息,再由 Gemma 3n 這樣的小型語言模型,針對你的提問進行總結與回答,這將大幅提升個人化 AI 助理的實用性與隱私保護。

當然這條路徑依然存在挑戰,雖然 EmbeddingGemma 能確保資訊檢索的準確性,但 2.7 億參數的 Gemma 3 270M 在語言生成和邏輯推理的複雜度上,終究有其極限。如果生成的答案過於簡單或制式化,使用者可能會很快失去新鮮感。其次,真正的挑戰在於「整合與優化」。要讓這兩個模型在各種硬體規格參差不齊的邊緣裝置上順暢協作,同時管理好記憶體與功耗,對開發者來說仍是一項艱鉅的工程。

不過對於手機、筆電等硬體製造商而言,這是一個創造差異化體驗的絕佳機會。誰能更好地整合與優化這類小型模型,提供更流暢、更實用的端側 AI 功能,誰就有機會在市場上脫穎而出,這也將加速「AI PC」與「AI 手機」的發展進程。


支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

留言
avatar-img
TN科技筆記(TechNotes)的沙龍
69會員
213內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/09/02
「RAG 已死?」這句話前陣子引發一波討論風潮。RAG (Retrieval-Augmented Generation,檢索增強生成) 讓大型語言模型 (LLM) 能夠存取外部知識,看似解決了模型「胡說八道」和知識侷限性的問題。
2025/09/02
「RAG 已死?」這句話前陣子引發一波討論風潮。RAG (Retrieval-Augmented Generation,檢索增強生成) 讓大型語言模型 (LLM) 能夠存取外部知識,看似解決了模型「胡說八道」和知識侷限性的問題。
2025/08/26
前陣子在 AI 圈內一個名為「Nano Banana」的神秘模型,在 AI 模型競技場 LMArena 上匿名測試,因為出色表現引起廣泛討論。Google 在 2025 年 8 月 26 日發布,「Nano Banana」就是最新的圖像生成模型:Gemini 2.5 Flash Image。
Thumbnail
2025/08/26
前陣子在 AI 圈內一個名為「Nano Banana」的神秘模型,在 AI 模型競技場 LMArena 上匿名測試,因為出色表現引起廣泛討論。Google 在 2025 年 8 月 26 日發布,「Nano Banana」就是最新的圖像生成模型:Gemini 2.5 Flash Image。
Thumbnail
2025/08/25
大型語言模型(LLM)的體積越來越龐大,運算成本也隨之水漲船高。這使得許多企業和開發者在導入 AI 應用的最後一哩路上,常常因為高昂的硬體需求和維護成本而卻步。就在 2025 年 8 月,NVIDIA 推出了一款全新模型:Nemotron Nano 2。
Thumbnail
2025/08/25
大型語言模型(LLM)的體積越來越龐大,運算成本也隨之水漲船高。這使得許多企業和開發者在導入 AI 應用的最後一哩路上,常常因為高昂的硬體需求和維護成本而卻步。就在 2025 年 8 月,NVIDIA 推出了一款全新模型:Nemotron Nano 2。
Thumbnail
看更多
你可能也想看
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
SearchGPT 是由 OpenAI 開發的 AI 驅動搜尋引擎,結合了傳統搜尋引擎技術和最新的 AI 技術,能即時從互聯網獲取資訊。它與其他搜尋引擎相比,提供更相關的搜尋結果、更豐富的結果呈現、更快的速度和更好的生態合作基礎建設。
Thumbnail
SearchGPT 是由 OpenAI 開發的 AI 驅動搜尋引擎,結合了傳統搜尋引擎技術和最新的 AI 技術,能即時從互聯網獲取資訊。它與其他搜尋引擎相比,提供更相關的搜尋結果、更豐富的結果呈現、更快的速度和更好的生態合作基礎建設。
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
上週精選✦這篇文章是一份豐富的資訊,涵蓋了很多人工智慧相關的項目和新聞。包括了Figma Config 大會、Google 開源的Gemma 2、Claude 的更新等。此外還包含了各種產品推薦和重點研究。文章豐富而全面,充滿了最新的人工智慧相關資訊。
Thumbnail
上週精選✦這篇文章是一份豐富的資訊,涵蓋了很多人工智慧相關的項目和新聞。包括了Figma Config 大會、Google 開源的Gemma 2、Claude 的更新等。此外還包含了各種產品推薦和重點研究。文章豐富而全面,充滿了最新的人工智慧相關資訊。
Thumbnail
據美聯社報導,OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs,便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。
Thumbnail
據美聯社報導,OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs,便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。
Thumbnail
在數位化的世界中,用戶介面和信息圖表等視覺元素扮演著越來越重要的角色,而ScreenAI的開發為自然語言處理和計算機視覺的融合開啟了新的可能性。
Thumbnail
在數位化的世界中,用戶介面和信息圖表等視覺元素扮演著越來越重要的角色,而ScreenAI的開發為自然語言處理和計算機視覺的融合開啟了新的可能性。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
今天 Google 發表了最新的 AI 模型 Gemini 1.5,不只提高模型訓練和服務效率,而且擁有更強大的理解力,每次能處理的 token 長度更是一口氣突破 100 萬大關,是競爭對手 GPT-4 的 7.8 倍 (GPT-4 目前只提供最長 32K 長度),可以處理更大量的資訊,也擁有更大
Thumbnail
今天 Google 發表了最新的 AI 模型 Gemini 1.5,不只提高模型訓練和服務效率,而且擁有更強大的理解力,每次能處理的 token 長度更是一口氣突破 100 萬大關,是競爭對手 GPT-4 的 7.8 倍 (GPT-4 目前只提供最長 32K 長度),可以處理更大量的資訊,也擁有更大
Thumbnail
2024 年,AI Boom 的第二年,我們總算可以撥開 AI 迷霧,逐一聊聊大型語言模型 (LLM) 的實際應用。On-Device AI 正快速進化,Google Gemini Nano 正式部署上手機,Apple 也發布最新論文彎道超車,改變了手機 AI 的未來發展。
Thumbnail
2024 年,AI Boom 的第二年,我們總算可以撥開 AI 迷霧,逐一聊聊大型語言模型 (LLM) 的實際應用。On-Device AI 正快速進化,Google Gemini Nano 正式部署上手機,Apple 也發布最新論文彎道超車,改變了手機 AI 的未來發展。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News