方格子 vocus

【Hugging Face】Ep.2 初探新手村, 打造專屬的翻譯官

阿Han

發佈於阿Han的軟體技術棧 💡

2023/07/15 更新2023/07/04 發佈閱讀 8 分鐘

我們已經介紹過關於Transformer模型的平台「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」，而這次就來實際動手進行開發，讓我們自己的AI自己做。

由於AI模型的訓練往往都會比較耗時，因此建議需要有GPU環境會比較有效率一些，否則訓練模行動輒好幾個小時才能看到結果，一來一往之間，當我們調好一版可用的模型時已經浪費了不少青春去了…。

基本上怎麼開始呢？其實有分為兩條路徑，一條是全部自己擁有，將環境架設於本地端，另一種則是使用雲端服務，例如學術研究的Google Colab，我們都會分別示範如何開始。

主題

這次的任務是自行打造一個翻譯官，幫我們將中文翻譯成英文，預計使用的模型為「Helsinki-NLP/opus-mt-zh-en」，就讓我們分別示範如何在本地端與Google Colab上使用吧！

本地端

當我們非常Care數據是應該私有的，不流於雲上時，這時候本地端架設會是較好的選擇，但相對應的也要有足夠的硬體，成本相對較高。

另外會建議基於Docker、Container這種容器化技術為基礎進行環境架設，如此一來才能夠避免因為系統環境的因素導致訓練失敗或者辨識失敗…等狀況。

首先請安裝一下Docker，請參考「Install Docker Engine」，至於什麼是Docker，我們之後會另外撰寫一篇來進行介紹，並在此補充，這邊假設您已經是Docker/Container專家為基礎進行說明。

安裝完畢後就是選用合適的image了，所謂image就是所謂的映像檔(虛擬機時期常常聽到的)，這邊會建議使用nvidia官方的image「PyTorch Release Notes」，這邊我們會選用「nvcr.io/nvidia/pytorch:22.12-py3」這個版本來進行示範。

基本上Docker安裝完畢之後，我們會用docker compose來管理配置的部份，大致上如下:

version: "3.8"
services:
  jupyter:
    image: nvcr.io/nvidia/pytorch:22.12-py3
    tmpfs:
      - /tmp
    ports:
      - "8888:8888"
    volumes:
      - ./:/workspace
    runtime: nvidia
    command: jupyter notebook --ip=0.0.0.0 --port=8888 --allow-root --NotebookApp.token='test'

接著啟動我們的環境

docker compose up -d

再來開啟jupyter的網站:http://127.0.0.1:8888/login，然後將token=text輸入就可以進行登錄了。

登入成功之後，我們就可以來創建一個筆記本。

安裝一下必要元件。

!pip install transformers

#  This tokenizer cannot be instantiated. Please make sure you have `sentencepiece` installed in order to use this tokenizer.
!pip install sentencepiece

!pip install sacremoses

接著進行翻譯任務。

from transformers import pipeline
translator = pipeline("translation", model='Helsinki-NLP/opus-mt-zh-en') #使用翻譯任務
translator('這是一個很困難的問題')

最終結果如下，成功幫我們進行翻譯。

Google Colab

當我們不想維護硬體時，雲端的Google Colab就是最好的選擇了，因為它整合了完整的python環境，讓我們可以透過類似Jupyter的方式進行開發，並分享腳本，基本上比較適合學生、數據資料學家或是 AI 研究人員，可以快速驗證概念或者訓練方向是否正確，支援CPU、GPU甚至TPU，但要注意的是除了CPU以外其他的運算單元都是會有額度限制的，超過額度可是得付費的。

怎麼開始使用Google Colab呢？請參考「【Google Colab系列】台股分析預備式： Colab平台與Python如何擦出火花？」，假設你已經學會如何開筆記本了，那就讓我們開始吧！

首先安裝一下最重要的Transformers元件吧

!pip install transformers

#  This tokenizer cannot be instantiated. Please make sure you have `sentencepiece` installed in order to use this tokenizer.
!pip install sentencepiece

!pip install sacremoses

接著進行翻譯任務。

from transformers import pipeline
translator = pipeline("translation", model='Helsinki-NLP/opus-mt-zh-en') #使用翻譯任務
translator('這是一個很困難的問題')

最終得到翻譯結果。

今天的範例都在這裡「📦huggingface/opus_mt_zh_en.ipynb」歡迎自行取用。

如何使用請參閱「【Google Colab系列】台股分析預備式： Colab平台與Python如何擦出火花？」。

結語

整個過程非常的簡單，幾行指令就讓我們完成翻譯的任務，過往可能需要付費才能使用的API，如今都可以自行擁有了， HuggingFace上有很多模型及任務可以使用，不妨親自動手玩看看，會讓我們對於AI領域有更進一步的認識喔，下一個篇章將會陸續介紹不同的任務與不同的模型，甚至自己動手訓練模型，就讓我們持續學習下去吧！

喜歡撰寫文章的你，不妨來了解一下：

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 - 為什麼要加入？

歡迎加入一起練習寫作，賺取知識！

更多關於【Hugging Face 系列】…

【Hugging Face】Ep.1 平凡人也能玩的起的AI平台
【Hugging Face】Ep.2 初探新手村, 打造專屬的翻譯官
【Hugging Face】Ep.3 前往Datasets掏金趣
【Hugging Face】Ep.4 文字與模型的轉換器Tokenizer
【Hugging Face】Ep.5 文字世界中的超能力語言英雄(Named Entity Recognition)
【Hugging Face】Ep.6 解決問題的專業級破關知識家(Question Answering)
【Hugging Face】Ep.7 以文生圖的魔幻製圖師(Text To Image)
【Hugging Face】Ep.8 專業的標準化推理家(Inference API)

#AI

#Huggingface

#ChatGPT

阿Han的沙龍阿Han的軟體技術棧 💡AI

留言

阿Han的沙龍

153會員

329內容數

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

阿Han的沙龍的其他內容

2025/04/23

【🤖 cursor AI】如何使用MCP Server

我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器，使用起來大幅度的提昇開發效率，但仍有些問題點需要克服，比如說： LLM壓根不知道我們的數據庫長怎樣啊？怎麼分析結構呢？假設文檔又不足的狀況下更是艱辛，如果LLM

2025/04/23

【🤖 cursor AI】如何使用MCP Server

2025/03/12

【語音合成技術 - MeloTTS】如何建置API服務？

我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術，該套GPT-SoVITS也非常的出色，但效能有點不是非常理想，加上需要GPU才能達到較佳的體驗，如此一來成本就會有點高了，因此我們找了另外一套MeloTTS，這一套強調CPU推理非常的快！

2025/03/12

【語音合成技術 - MeloTTS】如何建置API服務？

2025/03/05

【語音合成技術 - GPT-SoVITS】解析API版本

我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務，但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術，因此我們可能會需要將API退回舊版，在這裡我們也整理了早期版本api與api_v2的一些差異，期望幫助到正在面臨選

2025/03/05

【語音合成技術 - GPT-SoVITS】解析API版本

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇：帕拉贊諾夫的十段殘篇》，如何以十段殘篇，結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭，探討藝術在儀式消失的現代社會如何承接意義，並展現不羈的自由靈魂。

#釀電影#釀評論#藝術評論

2026/02/11

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

#釀電影#釀評論#藝術評論

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11