在 2026 年 1 月 15 日,Google 正式推出了名為 TranslateGemma 的開源翻譯模型系列。
以前如為辨識圖片中的文字,大都用所謂OCR辨識方式,處理前須對圖片用不同演算法專換後變成黑白圖,在去辨識圖中文字,步驟不可謂不繁瑣,但有了AI模型可以權值辨識文字後,開發者省了不少時間。

這款模型是基於 Google 最新的 Gemma 3 架構開發的,專門為翻譯任務進行了深度優化。以下是關於它「最強離線手機運行」賣點的詳細重點:
核心規格與版本
TranslateGemma 提供三種不同大小的版本,以適應不同的硬體環境:
- 4B (40 億參數): 這是專為手機與邊緣設備設計的版本,旨在實現高效的裝置端(On-device)離線運行。
- 12B (120 億參數): 適合在消費級筆記型電腦上本地運行。
- 27B (270 億參數): 針對雲端或高效能工作站設計,追求最高的翻譯準確度。
TranslateGemma 的三大賣點
- 手機端高效離線運行: 這是它最大的突破。
4B 版本透過「蒸餾(Distillation)」技術,將強大的 Gemini 模型翻譯能力濃縮進較小的體積中。這讓它在不需要網路連線的情況下,依然能在手機上提供接近雲端等級的翻譯品質,對於隱私保護和出國旅遊(無網路環境)非常實用。 - 多模態翻譯能力: 由於繼承了 Gemma 3 的基因,TranslateGemma 不僅能翻譯文字,還具備理解圖像的能力。這意味著它可以直接翻譯照片中的標牌、菜單或螢幕截圖中的文字,且準確率比以往的輕量化模型大幅提升。
- 支援 55 種核心語言: 它在 WMT24++ 等國際評測標準中表現優異,涵蓋了 55 種核心語言。官方數據顯示,12B 版本的翻譯品質甚至在某些測試中超越了兩倍體積的舊版模型。
開源與應用
目前 TranslateGemma 的模型權重已在 Hugging Face 和 Kaggle 上開放下載。這意味著開發者可以將這套強大的離線翻譯功能整合進自己的手機 App 中,而不需要支付昂貴的雲端 API 費用。
以下就來實際測試下辨識圖片文字或翻譯文字的效果: (go.py)
from transformers import pipeline
import torch
# 替換為您的實際 Token
my_hf_token = "hf_QNXXXXXXXXXXXX"
# 載入 TranslateGemma 模型
pipe = pipeline(
"image-text-to-text",
model="google/translategemma-4b-it",
device="cuda",
dtype=torch.bfloat16,
token=my_hf_token # 關鍵:在此加入 token
)
# ---- 任務一:純文字翻譯 (英文 ➔ 繁體中文) ----
text_messages = [
{
"role": "user",
"content": [
{
"type": "text",
"source_lang_code": "en-US",
"target_lang_code": "zh-Hant",
"text": "The rapid development of on-device AI is changing how we interact with technology.",
}
],
}
]
text_output = pipe(text=text_messages, max_new_tokens=200)
print("--- 文字翻譯結果 ---")
print(text_output[0]["generated_text"][-1]["content"])
# ---- 任務二:視覺翻譯 (繁體中文圖片 ➔ 英文) ----
# 這裡以一張包含中文招牌或標示的圖片為例
image_messages = [ { "role": "user",
"content": [ { "type": "image",
"source_lang_code": "zh-Hant",
"target_lang_code": "en-US",
# 這裡可以替換成任何含有中文文字的圖片網址或本地路徑
"url": "https://c7.alamy.com/comp/2YAX36N/traffic-signs-in-czech-republic-pedestrian-zone-2YAX36N.jpg",
},
],
}
]
image_output = pipe(text=image_messages, max_new_tokens=200)
print("\n--- 圖片翻譯結果 ---")
print(image_output[0]["generated_text"][-1]["content"])
關鍵修改說明:
- 語言代碼 (Language Codes):
- zh-Hant:代表繁體中文(Traditional Chinese)。
- en-US:代表美式英文(English)。
- 如果您想翻譯成簡體中文,請使用 zh-Hans。
- 設備適配:
- 如果您是在一般的筆記型電腦上運行且沒有 NVIDIA GPU,請將 device="cuda" 改為 device="cpu"(但速度會慢許多)。
- 視覺翻譯的應用:
- 在第二個例子中,模型會識別圖片中的「當心行人」或類似標誌,並直接將其轉譯成英文。這在開發離線翻譯 App 時非常強大,因為不再需要額外的 OCR 模組。
shell command> python go.py
如出現以下訊息:
Cannot access gated repo for url https://huggingface.co/google/translategemma-4b-it/resolve/main/config.json.
Access to model google/translategemma-4b-it is restricted. You must have access to it and be authenticated to access it. Please log in.
遇到這個錯誤是因為 Google 的 Gemma 系列模型(包括 TranslateGemma)屬於 Gated Models(受限模型)。這意味著你必須先在 Hugging Face 官網上手動同意其使用條款,並在程式碼中進行身分驗證,才能下載模型權重。
請按照以下二個步驟解決此問題:
第一步:在 Hugging Face 官網獲取權限
- 登入您的 Hugging Face 帳號。
- 前往 google/translategemma-4b-it 頁面。
- 您會看到一個申請表格(通常需要提供姓名、電子郵件和用途),填寫完成後點擊 "Accept License" 或 "Acknowledge"。
- 註:Google 通常會即時自動批准這些申請。
第二步:建立 Access Token
- 點擊頁面右上角的頭像,選擇 Settings。
- 點擊左側欄的 Access Tokens。
- 點擊 Create new token,類型選擇 Read,並給它一個名稱(例如 "Gemma-Access")。
- 複製這個 Token(以
hf_開頭)。


















