Google 發佈了號稱最強的離線翻譯AI模型 translate Gemma. 來個4B版本實測

更新 發佈閱讀 9 分鐘

在 2026 年 1 月 15 日,Google 正式推出了名為 TranslateGemma 的開源翻譯模型系列。

以前如為辨識圖片中的文字,大都用所謂OCR辨識方式,處理前須對圖片用不同演算法專換後變成黑白圖,在去辨識圖中文字,步驟不可謂不繁瑣,但有了AI模型可以權值辨識文字後,開發者省了不少時間。

raw-image


這款模型是基於 Google 最新的 Gemma 3 架構開發的,專門為翻譯任務進行了深度優化。以下是關於它「最強離線手機運行」賣點的詳細重點:

核心規格與版本

TranslateGemma 提供三種不同大小的版本,以適應不同的硬體環境:

  • 4B (40 億參數): 這是專為手機與邊緣設備設計的版本,旨在實現高效的裝置端(On-device)離線運行。
  • 12B (120 億參數): 適合在消費級筆記型電腦上本地運行。
  • 27B (270 億參數): 針對雲端或高效能工作站設計,追求最高的翻譯準確度。


TranslateGemma 的三大賣點

  • 手機端高效離線運行: 這是它最大的突破。
    4B 版本透過「蒸餾(Distillation)」技術,將強大的 Gemini 模型翻譯能力濃縮進較小的體積中。這讓它在不需要網路連線的情況下,依然能在手機上提供接近雲端等級的翻譯品質,對於隱私保護和出國旅遊(無網路環境)非常實用。
  • 多模態翻譯能力: 由於繼承了 Gemma 3 的基因,TranslateGemma 不僅能翻譯文字,還具備理解圖像的能力。這意味著它可以直接翻譯照片中的標牌、菜單或螢幕截圖中的文字,且準確率比以往的輕量化模型大幅提升。
  • 支援 55 種核心語言: 它在 WMT24++ 等國際評測標準中表現優異,涵蓋了 55 種核心語言。官方數據顯示,12B 版本的翻譯品質甚至在某些測試中超越了兩倍體積的舊版模型。


開源與應用

目前 TranslateGemma 的模型權重已在 Hugging Face 和 Kaggle 上開放下載。這意味著開發者可以將這套強大的離線翻譯功能整合進自己的手機 App 中,而不需要支付昂貴的雲端 API 費用。

以下就來實際測試下辨識圖片文字或翻譯文字的效果: (go.py)

from transformers import pipeline
import torch

# 替換為您的實際 Token
my_hf_token = "hf_QNXXXXXXXXXXXX"

# 載入 TranslateGemma 模型
pipe = pipeline(
"image-text-to-text",
model="google/translategemma-4b-it",
device="cuda",
dtype=torch.bfloat16,
token=my_hf_token # 關鍵:在此加入 token
)

# ---- 任務一:純文字翻譯 (英文 ➔ 繁體中文) ----
text_messages = [
{
"role": "user",
"content": [
{
"type": "text",
"source_lang_code": "en-US",
"target_lang_code": "zh-Hant",
"text": "The rapid development of on-device AI is changing how we interact with technology.",
}
],
}
]

text_output = pipe(text=text_messages, max_new_tokens=200)
print("--- 文字翻譯結果 ---")
print(text_output[0]["generated_text"][-1]["content"])

# ---- 任務二:視覺翻譯 (繁體中文圖片 ➔ 英文) ----
# 這裡以一張包含中文招牌或標示的圖片為例
image_messages = [ { "role": "user",
"content": [ { "type": "image",
"source_lang_code": "zh-Hant",
"target_lang_code": "en-US",
# 這裡可以替換成任何含有中文文字的圖片網址或本地路徑
"url": "https://c7.alamy.com/comp/2YAX36N/traffic-signs-in-czech-republic-pedestrian-zone-2YAX36N.jpg",
},
],
}
]

image_output = pipe(text=image_messages, max_new_tokens=200)
print("\n--- 圖片翻譯結果 ---")
print(image_output[0]["generated_text"][-1]["content"])

關鍵修改說明:

  • 語言代碼 (Language Codes)
    • zh-Hant:代表繁體中文(Traditional Chinese)。
    • en-US:代表美式英文(English)。
    • 如果您想翻譯成簡體中文,請使用 zh-Hans。
  • 設備適配
    • 如果您是在一般的筆記型電腦上運行且沒有 NVIDIA GPU,請將 device="cuda" 改為 device="cpu"(但速度會慢許多)。
  • 視覺翻譯的應用
    • 在第二個例子中,模型會識別圖片中的「當心行人」或類似標誌,並直接將其轉譯成英文。這在開發離線翻譯 App 時非常強大,因為不再需要額外的 OCR 模組。

shell command> python go.py

如出現以下訊息:

Cannot access gated repo for url https://huggingface.co/google/translategemma-4b-it/resolve/main/config.json.
Access to model google/translategemma-4b-it is restricted. You must have access to it and be authenticated to access it. Please log in.

遇到這個錯誤是因為 Google 的 Gemma 系列模型(包括 TranslateGemma)屬於 Gated Models(受限模型)。這意味著你必須先在 Hugging Face 官網上手動同意其使用條款,並在程式碼中進行身分驗證,才能下載模型權重。

請按照以下二個步驟解決此問題:

第一步:在 Hugging Face 官網獲取權限

  1. 登入您的 Hugging Face 帳號。
  2. 前往 google/translategemma-4b-it 頁面。
  3. 您會看到一個申請表格(通常需要提供姓名、電子郵件和用途),填寫完成後點擊 "Accept License""Acknowledge"
    • 註:Google 通常會即時自動批准這些申請。

第二步:建立 Access Token

  1. 點擊頁面右上角的頭像,選擇 Settings
  2. 點擊左側欄的 Access Tokens
  3. 點擊 Create new token,類型選擇 Read,並給它一個名稱(例如 "Gemma-Access")。
  4. 複製這個 Token(以 hf_ 開頭)。
raw-image
raw-image


留言
avatar-img
Hank吳的沙龍
8會員
135內容數
這不僅僅是一個 Blog,更是一個交流與分享的空間。 期待在這裡與你相遇,一起探索科技、體驗生活、夢想旅行!💖
Hank吳的沙龍的其他內容
2026/01/16
在 2026 年1月,Gmail 與 Gemini 3 的整合已經進入全面應用階段。這項更新不僅提升了處理速度(主要歸功於 Gemini 3 Flash 的低延遲),更引入了「Agentic AI(代理型 AI)」的概念,讓 Gmail 從單純的收發工具轉變為個人辦公助手。
Thumbnail
2026/01/16
在 2026 年1月,Gmail 與 Gemini 3 的整合已經進入全面應用階段。這項更新不僅提升了處理速度(主要歸功於 Gemini 3 Flash 的低延遲),更引入了「Agentic AI(代理型 AI)」的概念,讓 Gmail 從單純的收發工具轉變為個人辦公助手。
Thumbnail
2026/01/14
以下是相關言論發表的詳細背景與管道: 1. 發表時間與主要管道 發表時間: 2026 年 1 月 11 日至 1 月 14 日(近期)。 首發管道: 貝瑞在其個人的 Substack(付費電子報平台)以及 X(原 Twitter) 上發布了一系列針對 AI 泡沫與特定公司的深度分析。
Thumbnail
2026/01/14
以下是相關言論發表的詳細背景與管道: 1. 發表時間與主要管道 發表時間: 2026 年 1 月 11 日至 1 月 14 日(近期)。 首發管道: 貝瑞在其個人的 Substack(付費電子報平台)以及 X(原 Twitter) 上發布了一系列針對 AI 泡沫與特定公司的深度分析。
Thumbnail
2026/01/13
「黃金標普比」是指「標普500指數與黃金比率」(S&P 500 to Gold Ratio)。 這是一個總體經濟指標,用來觀察「風險資產(股票)」與「避險資產(黃金)」之間的相對強弱關係。 它能幫助投資人判斷目前的市場情緒是偏向「貪婪(看好經濟)」還是「恐懼(擔憂崩盤或通膨)」。
Thumbnail
2026/01/13
「黃金標普比」是指「標普500指數與黃金比率」(S&P 500 to Gold Ratio)。 這是一個總體經濟指標,用來觀察「風險資產(股票)」與「避險資產(黃金)」之間的相對強弱關係。 它能幫助投資人判斷目前的市場情緒是偏向「貪婪(看好經濟)」還是「恐懼(擔憂崩盤或通膨)」。
Thumbnail
看更多
你可能也想看
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
市場經驗拉長之後,很多投資人都會遇到同一個問題:不是方向看錯,而是部位太集中個股,常常跟大趨勢脫節。 早年的台股環境,中小股非常吃香,反而權值股不動,但QE量化寬鬆後,特別是疫情之後,後疫情時代,鈔票大量在股市走動,這些大資金只能往權值股走,因此早年小P的策略偏向中小型個股,但近年AI興起,高技術
Thumbnail
市場經驗拉長之後,很多投資人都會遇到同一個問題:不是方向看錯,而是部位太集中個股,常常跟大趨勢脫節。 早年的台股環境,中小股非常吃香,反而權值股不動,但QE量化寬鬆後,特別是疫情之後,後疫情時代,鈔票大量在股市走動,這些大資金只能往權值股走,因此早年小P的策略偏向中小型個股,但近年AI興起,高技術
Thumbnail
Google 在 2025 年 12 月推出多項 AI 更新,包括 Gemini 3 Flash 上線、影片真偽驗證、GenTabs 分頁整理、即時語音翻譯、Deep Research 研究 Agent 開放,以及 Search、YouTube、Photos Recap 的個人化強化。
Thumbnail
Google 在 2025 年 12 月推出多項 AI 更新,包括 Gemini 3 Flash 上線、影片真偽驗證、GenTabs 分頁整理、即時語音翻譯、Deep Research 研究 Agent 開放,以及 Search、YouTube、Photos Recap 的個人化強化。
Thumbnail
出國旅遊、國際會議、看外語影片時,語言障礙總是最大的困擾。Google 最新推出的 Translate 應用實時翻譯功能,現已支援超過 70 種語言,而且不限於特定耳機型號,任何配備麥克風的耳機都能使用。
Thumbnail
出國旅遊、國際會議、看外語影片時,語言障礙總是最大的困擾。Google 最新推出的 Translate 應用實時翻譯功能,現已支援超過 70 種語言,而且不限於特定耳機型號,任何配備麥克風的耳機都能使用。
Thumbnail
福壽(股票代號1219) 1. 今年Q1~Q3,營業活動現金流為負數;但如果拆單季來看,Q3稅後淨利雖然為-0.34億元,但因為存貨降低,所以Q3的營業活動現金流為6.88億元。 2. 福壽的融資餘額偏高,但如果量衝高,融資餘額也就不高了。 3. 福壽的營收成長比例,與獲利成長的比例異常。 4. 1
Thumbnail
福壽(股票代號1219) 1. 今年Q1~Q3,營業活動現金流為負數;但如果拆單季來看,Q3稅後淨利雖然為-0.34億元,但因為存貨降低,所以Q3的營業活動現金流為6.88億元。 2. 福壽的融資餘額偏高,但如果量衝高,融資餘額也就不高了。 3. 福壽的營收成長比例,與獲利成長的比例異常。 4. 1
Thumbnail
這篇文章分享使用「沉浸式翻譯」工具的心得,包含其五個主要功能:一鍵翻譯、雙語對照、PDF 文件翻譯、輸入框翻譯和影片雙語字幕,並深入介紹如何連接 OpenAI API 以提升翻譯品質,比較 Google 翻譯和 OpenAI API 翻譯結果的差異。
Thumbnail
這篇文章分享使用「沉浸式翻譯」工具的心得,包含其五個主要功能:一鍵翻譯、雙語對照、PDF 文件翻譯、輸入框翻譯和影片雙語字幕,並深入介紹如何連接 OpenAI API 以提升翻譯品質,比較 Google 翻譯和 OpenAI API 翻譯結果的差異。
Thumbnail
免費使用Google Gemini API並有效應用其功能,需透過以下步驟與場景實現: 免費獲取Gemini API金鑰 1. 透過Google AI Studio申請 登入Google帳號後,前往Google AI Studio [https://ai.google.dev/]或Make
Thumbnail
免費使用Google Gemini API並有效應用其功能,需透過以下步驟與場景實現: 免費獲取Gemini API金鑰 1. 透過Google AI Studio申請 登入Google帳號後,前往Google AI Studio [https://ai.google.dev/]或Make
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News