Google 發佈了號稱最強的離線翻譯AI模型 translate Gemma. 來個4B版本實測

Hank吳

2026/01/21 更新2026/01/21 發佈閱讀 9 分鐘

在 2026 年 1 月 15 日，Google 正式推出了名為 TranslateGemma 的開源翻譯模型系列。

以前如為辨識圖片中的文字，大都用所謂OCR辨識方式，處理前須對圖片用不同演算法專換後變成黑白圖，在去辨識圖中文字，步驟不可謂不繁瑣，但有了AI模型可以權值辨識文字後，開發者省了不少時間。

這款模型是基於 Google 最新的 Gemma 3 架構開發的，專門為翻譯任務進行了深度優化。以下是關於它「最強離線手機運行」賣點的詳細重點：

核心規格與版本

TranslateGemma 提供三種不同大小的版本，以適應不同的硬體環境：

4B (40 億參數)：這是專為手機與邊緣設備設計的版本，旨在實現高效的裝置端（On-device）離線運行。
12B (120 億參數)：適合在消費級筆記型電腦上本地運行。
27B (270 億參數)：針對雲端或高效能工作站設計，追求最高的翻譯準確度。

TranslateGemma 的三大賣點

手機端高效離線運行：這是它最大的突破。
4B 版本透過「蒸餾（Distillation）」技術，將強大的 Gemini 模型翻譯能力濃縮進較小的體積中。這讓它在不需要網路連線的情況下，依然能在手機上提供接近雲端等級的翻譯品質，對於隱私保護和出國旅遊（無網路環境）非常實用。
多模態翻譯能力：由於繼承了 Gemma 3 的基因，TranslateGemma 不僅能翻譯文字，還具備理解圖像的能力。這意味著它可以直接翻譯照片中的標牌、菜單或螢幕截圖中的文字，且準確率比以往的輕量化模型大幅提升。
支援 55 種核心語言：它在 WMT24++ 等國際評測標準中表現優異，涵蓋了 55 種核心語言。官方數據顯示，12B 版本的翻譯品質甚至在某些測試中超越了兩倍體積的舊版模型。

開源與應用

目前 TranslateGemma 的模型權重已在 Hugging Face 和 Kaggle 上開放下載。這意味著開發者可以將這套強大的離線翻譯功能整合進自己的手機 App 中，而不需要支付昂貴的雲端 API 費用。

以下就來實際測試下辨識圖片文字或翻譯文字的效果: (go.py)

from transformers import pipeline
import torch

# 替換為您的實際 Token
my_hf_token = "hf_QNXXXXXXXXXXXX"

# 載入 TranslateGemma 模型
pipe = pipeline(
    "image-text-to-text",
    model="google/translategemma-4b-it",
    device="cuda",
    dtype=torch.bfloat16,
    token=my_hf_token  # 關鍵：在此加入 token
)

# ---- 任務一：純文字翻譯 (英文 ➔ 繁體中文) ----
text_messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "text",
                "source_lang_code": "en-US",
                "target_lang_code": "zh-Hant",
                "text": "The rapid development of on-device AI is changing how we interact with technology.",
            }
        ],
    }
]

text_output = pipe(text=text_messages, max_new_tokens=200)
print("--- 文字翻譯結果 ---")
print(text_output[0]["generated_text"][-1]["content"])

# ---- 任務二：視覺翻譯 (繁體中文圖片 ➔ 英文) ---- 
# 這裡以一張包含中文招牌或標示的圖片為例
image_messages = [ { "role": "user",
 "content": [ { "type": "image", 
 "source_lang_code": "zh-Hant", 
 "target_lang_code": "en-US", 
 # 這裡可以替換成任何含有中文文字的圖片網址或本地路徑 
 "url": "https://c7.alamy.com/comp/2YAX36N/traffic-signs-in-czech-republic-pedestrian-zone-2YAX36N.jpg",
 },
  ], 
  } 
  ]
  
  image_output = pipe(text=image_messages, max_new_tokens=200) 
  print("\n--- 圖片翻譯結果 ---") 
  print(image_output[0]["generated_text"][-1]["content"])

關鍵修改說明：

語言代碼 (Language Codes)：
- zh-Hant：代表繁體中文（Traditional Chinese）。
- en-US：代表美式英文（English）。
- 如果您想翻譯成簡體中文，請使用 zh-Hans。
設備適配：
- 如果您是在一般的筆記型電腦上運行且沒有 NVIDIA GPU，請將 device="cuda" 改為 device="cpu"（但速度會慢許多）。
視覺翻譯的應用：
- 在第二個例子中，模型會識別圖片中的「當心行人」或類似標誌，並直接將其轉譯成英文。這在開發離線翻譯 App 時非常強大，因為不再需要額外的 OCR 模組。

shell command> python go.py

如出現以下訊息:

Cannot access gated repo for url https://huggingface.co/google/translategemma-4b-it/resolve/main/config.json.

Access to model google/translategemma-4b-it is restricted. You must have access to it and be authenticated to access it. Please log in.

遇到這個錯誤是因為 Google 的 Gemma 系列模型（包括 TranslateGemma）屬於 Gated Models（受限模型）。這意味著你必須先在 Hugging Face 官網上手動同意其使用條款，並在程式碼中進行身分驗證，才能下載模型權重。

請按照以下二個步驟解決此問題：

第一步：在 Hugging Face 官網獲取權限

登入您的 Hugging Face 帳號。
前往 google/translategemma-4b-it 頁面。
您會看到一個申請表格（通常需要提供姓名、電子郵件和用途），填寫完成後點擊 "Accept License" 或 "Acknowledge"。
- 註：Google 通常會即時自動批准這些申請。

第二步：建立 Access Token

點擊頁面右上角的頭像，選擇 Settings。
點擊左側欄的 Access Tokens。
點擊 Create new token，類型選擇 Read，並給它一個名稱（例如 "Gemma-Access"）。
複製這個 Token（以 hf_ 開頭）。

留言

Hank吳的沙龍

8會員

135內容數

這不僅僅是一個 Blog，更是一個交流與分享的空間。期待在這裡與你相遇，一起探索科技、體驗生活、夢想旅行！💖

Hank吳的沙龍的其他內容

2026/01/16

Gmail 與 Gemini 3 的整合已經進入全面應用階段:如何在 Gmail 中應用 Gemini 3

在 2026 年1月，Gmail 與 Gemini 3 的整合已經進入全面應用階段。這項更新不僅提升了處理速度（主要歸功於 Gemini 3 Flash 的低延遲），更引入了「Agentic AI（代理型 AI）」的概念，讓 Gmail 從單純的收發工具轉變為個人辦公助手。

2026/01/16

Gmail 與 Gemini 3 的整合已經進入全面應用階段:如何在 Gmail 中應用 Gemini 3

2026/01/14

《大賣空》原型主角麥可·貝瑞（Michael Burry）再次對市場發出重磅警告，揭露他已正式放空輝達（Nvidia）

以下是相關言論發表的詳細背景與管道： 1. 發表時間與主要管道發表時間： 2026 年 1 月 11 日至 1 月 14 日（近期）。首發管道：貝瑞在其個人的 Substack（付費電子報平台）以及 X（原 Twitter）上發布了一系列針對 AI 泡沫與特定公司的深度分析。

2026/01/14

《大賣空》原型主角麥可·貝瑞（Michael Burry）再次對市場發出重磅警告，揭露他已正式放空輝達（Nvidia）

2026/01/13

2026年初黃金標普比到1.5，這數值代表甚麼意義?

「黃金標普比」是指「標普500指數與黃金比率」（S&P 500 to Gold Ratio）。這是一個總體經濟指標，用來觀察「風險資產（股票）」與「避險資產（黃金）」之間的相對強弱關係。它能幫助投資人判斷目前的市場情緒是偏向「貪婪（看好經濟）」還是「恐懼（擔憂崩盤或通膨）」。

2026/01/13

2026年初黃金標普比到1.5，這數值代表甚麼意義?

看更多

你可能也想看

方格子 vocus 官方沙龍

vocus App 正式推出｜立即下載 iOS 版，打開全新內容宇宙

在 vocus 與你一起探索內容、發掘靈感的路上，我們又將啟動新的冒險——vocus App 正式推出！現在起，你可以在 iOS App Store 下載全新上架的 vocus App。無論是在通勤路上、日常空檔，或一天結束後的放鬆時刻，都能自在沈浸在內容宇宙中。

#App#iOS#App Store

2026/01/21

方格子 vocus 官方沙龍

vocus App 正式推出｜立即下載 iOS 版，打開全新內容宇宙

#App#iOS#App Store

2026/01/21

小P趨勢投資

小P觀察｜一籃子vs單壓個股: 以00858永豐美國500大為例

市場經驗拉長之後，很多投資人都會遇到同一個問題：不是方向看錯，而是部位太集中個股，常常跟大趨勢脫節。早年的台股環境，中小股非常吃香，反而權值股不動，但QE量化寬鬆後，特別是疫情之後，後疫情時代，鈔票大量在股市走動，這些大資金只能往權值股走，因此早年小P的策略偏向中小型個股，但近年AI興起，高技術

#投資人#ETF#權值股

2026/01/15

小P趨勢投資

小P觀察｜一籃子vs單壓個股: 以00858永豐美國500大為例

#投資人#ETF#權值股

2026/01/15

AI.ESG.數位轉型顧問沈重宗

🚨 Google 翻譯真的要緊張了 GPT 翻譯正式上線，翻譯不再只是翻譯，而是「直接幫你寫好」 📌 文章目錄

2026/01/16

AI.ESG.數位轉型顧問沈重宗

🚨 Google 翻譯真的要緊張了 GPT 翻譯正式上線，翻譯不再只是翻譯，而是「直接幫你寫好」 📌 文章目錄

2026/01/16

Mech muse 智慧新知

✨Google 12 月 AI 大更新總整理｜Gemini 3 Flash、Deep Research、AI翻譯一次看！

Google 在 2025 年 12 月推出多項 AI 更新，包括 Gemini 3 Flash 上線、影片真偽驗證、GenTabs 分頁整理、即時語音翻譯、Deep Research 研究 Agent 開放，以及 Search、YouTube、Photos Recap 的個人化強化。

#科技#AI#搜尋

2025/12/31

Mech muse 智慧新知

✨Google 12 月 AI 大更新總整理｜Gemini 3 Flash、Deep Research、AI翻譯一次看！

#科技#AI#搜尋

2025/12/31

iSALE

再也不怕出國旅遊！Google 新功能幫你即時翻譯 70+ 語言，現有耳機也能用

出國旅遊、國際會議、看外語影片時，語言障礙總是最大的困擾。Google 最新推出的 Translate 應用實時翻譯功能，現已支援超過 70 種語言，而且不限於特定耳機型號，任何配備麥克風的耳機都能使用。

#翻譯#Google#即時翻譯

2025/12/16

iSALE

再也不怕出國旅遊！Google 新功能幫你即時翻譯 70+ 語言，現有耳機也能用

#翻譯#Google#即時翻譯

2025/12/16

Jackie Chien的沙龍

當 AI 成為你的即時口譯員：一段從九州大學研討會開始的 Vibe Coding 旅程

福壽(股票代號1219) 1. 今年Q1~Q3，營業活動現金流為負數；但如果拆單季來看，Q3稅後淨利雖然為-0.34億元，但因為存貨降低，所以Q3的營業活動現金流為6.88億元。 2. 福壽的融資餘額偏高，但如果量衝高，融資餘額也就不高了。 3. 福壽的營收成長比例，與獲利成長的比例異常。 4. 1

#研討會#翻譯#Google

2025/11/02