【Hugging Face】Ep.2 初探新手村, 打造專屬的翻譯官

更新 發佈閱讀 8 分鐘
raw-image

我們已經介紹過關於Transformer模型的平台「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」,而這次就來實際動手進行開發,讓我們自己的AI自己做。

由於AI模型的訓練往往都會比較耗時, 因此建議需要有GPU環境會比較有效率一些, 否則訓練模行動輒好幾個小時才能看到結果, 一來一往之間, 當我們調好一版可用的模型時已經浪費了不少青春去了…。

基本上怎麼開始呢? 其實有分為兩條路徑, 一條是全部自己擁有, 將環境架設於本地端, 另一種則是使用雲端服務, 例如學術研究的Google Colab, 我們都會分別示範如何開始。

主題

這次的任務是自行打造一個翻譯官, 幫我們將中文翻譯成英文, 預計使用的模型為「Helsinki-NLP/opus-mt-zh-en」, 就讓我們分別示範如何在本地端與Google Colab上使用吧!

本地端

當我們非常Care數據是應該私有的, 不流於雲上時, 這時候本地端架設會是較好的選擇, 但相對應的也要有足夠的硬體, 成本相對較高。

另外會建議基於Docker、Container這種容器化技術為基礎進行環境架設, 如此一來才能夠避免因為系統環境的因素導致訓練失敗或者辨識失敗…等狀況。

首先請安裝一下Docker, 請參考「Install Docker Engine」, 至於什麼是Docker, 我們之後會另外撰寫一篇來進行介紹, 並在此補充, 這邊假設您已經是Docker/Container專家為基礎進行說明。

安裝完畢後就是選用合適的image了, 所謂image就是所謂的映像檔(虛擬機時期常常聽到的), 這邊會建議使用nvidia官方的image「PyTorch Release Notes」, 這邊我們會選用「nvcr.io/nvidia/pytorch:22.12-py3」這個版本來進行示範。

基本上Docker安裝完畢之後, 我們會用docker compose來管理配置的部份, 大致上如下:

version: "3.8"
services:
jupyter:
image: nvcr.io/nvidia/pytorch:22.12-py3
tmpfs:
- /tmp
ports:
- "8888:8888"
volumes:
- ./:/workspace
runtime: nvidia
command: jupyter notebook --ip=0.0.0.0 --port=8888 --allow-root --NotebookApp.token='test'

接著啟動我們的環境

docker compose up -d

再來開啟jupyter的網站:http://127.0.0.1:8888/login, 然後將token=text輸入就可以進行登錄了。

raw-image

登入成功之後, 我們就可以來創建一個筆記本。

raw-image

安裝一下必要元件。

!pip install transformers

# This tokenizer cannot be instantiated. Please make sure you have `sentencepiece` installed in order to use this tokenizer.
!pip install sentencepiece

!pip install sacremoses

接著進行翻譯任務。

from transformers import pipeline
translator = pipeline("translation", model='Helsinki-NLP/opus-mt-zh-en') #使用翻譯任務
translator('這是一個很困難的問題')

最終結果如下,成功幫我們進行翻譯。

raw-image

Google Colab

當我們不想維護硬體時, 雲端的Google Colab就是最好的選擇了, 因為它整合了完整的python環境, 讓我們可以透過類似Jupyter的方式進行開發, 並分享腳本, 基本上比較適合學生、數據資料學家或是 AI 研究人員, 可以快速驗證概念或者訓練方向是否正確, 支援CPU、GPU甚至TPU, 但要注意的是除了CPU以外其他的運算單元都是會有額度限制的, 超過額度可是得付費的。

怎麼開始使用Google Colab呢? 請參考「【Google Colab系列】台股分析預備式: Colab平台與Python如何擦出火花?」, 假設你已經學會如何開筆記本了, 那就讓我們開始吧!

首先安裝一下最重要的Transformers元件吧

!pip install transformers

# This tokenizer cannot be instantiated. Please make sure you have `sentencepiece` installed in order to use this tokenizer.
!pip install sentencepiece

!pip install sacremoses

接著進行翻譯任務。

from transformers import pipeline
translator = pipeline("translation", model='Helsinki-NLP/opus-mt-zh-en') #使用翻譯任務
translator('這是一個很困難的問題')

最終得到翻譯結果。

raw-image

今天的範例都在這裡「📦huggingface/opus_mt_zh_en.ipynb」歡迎自行取用。

如何使用請參閱「【Google Colab系列】台股分析預備式: Colab平台與Python如何擦出火花?」。

結語

整個過程非常的簡單, 幾行指令就讓我們完成翻譯的任務, 過往可能需要付費才能使用的API,如今都可以自行擁有了, HuggingFace上有很多模型及任務可以使用, 不妨親自動手玩看看, 會讓我們對於AI領域有更進一步的認識喔, 下一個篇章將會陸續介紹不同的任務與不同的模型, 甚至自己動手訓練模型, 就讓我們持續學習下去吧!

喜歡撰寫文章的你,不妨來了解一下:

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 - 為什麼要加入?

歡迎加入一起練習寫作,賺取知識!


更多關於【Hugging Face 系列】…

留言
avatar-img
留言分享你的想法!
avatar-img
阿Han的沙龍
139會員
303內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
阿Han的沙龍的其他內容
2025/04/23
我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器, 使用起來大幅度的提昇開發效率, 但仍有些問題點需要克服, 比如說: LLM壓根不知道我們的數據庫長怎樣啊? 怎麼分析結構呢? 假設文檔又不足的狀況下更是艱辛, 如果LLM
Thumbnail
2025/04/23
我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器, 使用起來大幅度的提昇開發效率, 但仍有些問題點需要克服, 比如說: LLM壓根不知道我們的數據庫長怎樣啊? 怎麼分析結構呢? 假設文檔又不足的狀況下更是艱辛, 如果LLM
Thumbnail
2025/03/12
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術, 該套GPT-SoVITS也非常的出色, 但效能有點不是非常理想, 加上需要GPU才能達到較佳的體驗, 如此一來成本就會有點高了, 因此我們找了另外一套MeloTTS, 這一套強調CPU推理非常的快!
Thumbnail
2025/03/12
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術, 該套GPT-SoVITS也非常的出色, 但效能有點不是非常理想, 加上需要GPU才能達到較佳的體驗, 如此一來成本就會有點高了, 因此我們找了另外一套MeloTTS, 這一套強調CPU推理非常的快!
Thumbnail
2025/03/05
我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務, 但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術, 因此我們可能會需要將API退回舊版, 在這裡我們也整理了早期版本api與api_v2的一些差異, 期望幫助到正在面臨選
Thumbnail
2025/03/05
我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務, 但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術, 因此我們可能會需要將API退回舊版, 在這裡我們也整理了早期版本api與api_v2的一些差異, 期望幫助到正在面臨選
Thumbnail
看更多
你可能也想看
Thumbnail
蝦皮分潤計畫讓我在分享旅遊文章時,也能透過推薦好物累積被動收入,貼補旅行基金。這篇文章,除了介紹計畫的操作亮點與心得,也分享我最常應用的案例:「旅行必備小物 TOP5」,包含行李鎖、免洗內衣褲、分裝瓶、折疊衣架與真空壓縮袋,幫助出國打包更輕鬆。想同時記錄旅行、分享好物又創造額外收入的你,千萬別錯過!
Thumbnail
蝦皮分潤計畫讓我在分享旅遊文章時,也能透過推薦好物累積被動收入,貼補旅行基金。這篇文章,除了介紹計畫的操作亮點與心得,也分享我最常應用的案例:「旅行必備小物 TOP5」,包含行李鎖、免洗內衣褲、分裝瓶、折疊衣架與真空壓縮袋,幫助出國打包更輕鬆。想同時記錄旅行、分享好物又創造額外收入的你,千萬別錯過!
Thumbnail
想增加被動收入?加入蝦皮分潤計畫是輕鬆上手的好方法!本文提供完整教學,包含申請流程、賺取分潤技巧,以及實際使用心得分享,助你輕鬆獲得額外收入。
Thumbnail
想增加被動收入?加入蝦皮分潤計畫是輕鬆上手的好方法!本文提供完整教學,包含申請流程、賺取分潤技巧,以及實際使用心得分享,助你輕鬆獲得額外收入。
Thumbnail
好玩的來了,AI即時繪畫目前可以做到透過提示詞配合網路攝影機進行即時的AI轉換。 今天教你怎麼用這個工具 以下有整合包 https://drive.google.com/drive/folders/1Uz8QNDgYjfDjoYcAdxZYD0KIoxsaX_s6?usp=drive_link
Thumbnail
好玩的來了,AI即時繪畫目前可以做到透過提示詞配合網路攝影機進行即時的AI轉換。 今天教你怎麼用這個工具 以下有整合包 https://drive.google.com/drive/folders/1Uz8QNDgYjfDjoYcAdxZYD0KIoxsaX_s6?usp=drive_link
Thumbnail
我們過往介紹了幾個關於文字AI應用的篇章: 【Hugging Face】Ep.5 文字世界中的超能力語言英雄(Named Entity Recognition) 【Hugging Face】Ep.6 解決問題的專業級破關知識家(Question Answering) 但單獨的文字應用似乎不太能
Thumbnail
我們過往介紹了幾個關於文字AI應用的篇章: 【Hugging Face】Ep.5 文字世界中的超能力語言英雄(Named Entity Recognition) 【Hugging Face】Ep.6 解決問題的專業級破關知識家(Question Answering) 但單獨的文字應用似乎不太能
Thumbnail
Hi, 大家好,我是茶桁。 直奔主题,我们来谈谈成本这件事。 大家应该都知道,ChatGPT对免费用户是有5美元的API调用额度的,说是这么说,可是那是以前,现在新注册的小伙伴应该都发现自己的API Key根本无法调用API,原因是这个免费额度似乎已经失效了。而我可以直接说,在我从第一节到第10
Thumbnail
Hi, 大家好,我是茶桁。 直奔主题,我们来谈谈成本这件事。 大家应该都知道,ChatGPT对免费用户是有5美元的API调用额度的,说是这么说,可是那是以前,现在新注册的小伙伴应该都发现自己的API Key根本无法调用API,原因是这个免费额度似乎已经失效了。而我可以直接说,在我从第一节到第10
Thumbnail
Hi, 我是茶桁。 在上一节中,我们介绍了如何使用最新的ChatGPT API,注册HuggingFace账户,并将我们的聊天机器人部署出去。在这个过程中,我们学习了实际的应用开发过程,使你对聊天机器人的开发有了充足的体验。在这一讲中,我们将探讨OpenAI的各种接口提供的能力,以更深入地了解这些
Thumbnail
Hi, 我是茶桁。 在上一节中,我们介绍了如何使用最新的ChatGPT API,注册HuggingFace账户,并将我们的聊天机器人部署出去。在这个过程中,我们学习了实际的应用开发过程,使你对聊天机器人的开发有了充足的体验。在这一讲中,我们将探讨OpenAI的各种接口提供的能力,以更深入地了解这些
Thumbnail
我們已經介紹過關於Transformer模型的平台「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」,而這次就來實際動手進行開發,讓我們自己的AI自己做。 由於AI模型的訓練往往都會比較耗時, 因此建議需要有GPU環境會比較有效率一些, 否則訓練模行動輒好幾個小時才能看到結果, 一
Thumbnail
我們已經介紹過關於Transformer模型的平台「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」,而這次就來實際動手進行開發,讓我們自己的AI自己做。 由於AI模型的訓練往往都會比較耗時, 因此建議需要有GPU環境會比較有效率一些, 否則訓練模行動輒好幾個小時才能看到結果, 一
Thumbnail
它到底是什麼? 簡單說Hugging Face是人工智慧開源平台,開發者發表和共享預訓練模型、資料庫和示範檔案等。Hugging Face共享超過10萬個預訓練模型,上萬資料庫,包括微軟、Google、彭博、英特爾等各行業上萬機構都有使用Hugging Face。 理念與目標 我們都知道最近火紅的O
Thumbnail
它到底是什麼? 簡單說Hugging Face是人工智慧開源平台,開發者發表和共享預訓練模型、資料庫和示範檔案等。Hugging Face共享超過10萬個預訓練模型,上萬資料庫,包括微軟、Google、彭博、英特爾等各行業上萬機構都有使用Hugging Face。 理念與目標 我們都知道最近火紅的O
Thumbnail
這次我要來介紹如何使用 talking-head-anime 創建自己的 vtuber 角色,talking-head-anime 是一個超酷的開源軟體,只要輸入一張圖片,並且搭配手機的鏡頭去偵測臉部動作,他就可以直接把你的表情和動作套用到輸入的圖片上。
Thumbnail
這次我要來介紹如何使用 talking-head-anime 創建自己的 vtuber 角色,talking-head-anime 是一個超酷的開源軟體,只要輸入一張圖片,並且搭配手機的鏡頭去偵測臉部動作,他就可以直接把你的表情和動作套用到輸入的圖片上。
Thumbnail
本教學使用Automatic 1111介面   AI繪圖風行至今,網上已有不少中文教學,包括教導如何訓練LoRA、LoCon等模型的文章,而訓練上述模型時,通常會經過一道「Preprocess Images」工序,中文稱為「圖片預處理」。
Thumbnail
本教學使用Automatic 1111介面   AI繪圖風行至今,網上已有不少中文教學,包括教導如何訓練LoRA、LoCon等模型的文章,而訓練上述模型時,通常會經過一道「Preprocess Images」工序,中文稱為「圖片預處理」。
Thumbnail
最近AI算圖真的是很有趣,可是網路上的算圖大多提詞是要付費的,這裡也寫個筆記我,有興趣的可以自己架設算圖伺服器。 這裡先把相關需要安裝的軟體網址先記錄下來,還有要玩前最好先有nivdia顯卡。 1.GIT服務器:下載適用自己作業系統的版本 Git - Downloads (git-scm.com)
Thumbnail
最近AI算圖真的是很有趣,可是網路上的算圖大多提詞是要付費的,這裡也寫個筆記我,有興趣的可以自己架設算圖伺服器。 這裡先把相關需要安裝的軟體網址先記錄下來,還有要玩前最好先有nivdia顯卡。 1.GIT服務器:下載適用自己作業系統的版本 Git - Downloads (git-scm.com)
Thumbnail
安裝 Git https://git-scm.com/downloads 下載waifu-diffusion模型 https://huggingface.co/hakurei/waifu-diffusion 完整下載 https://huggingface.co/hakurei/waifu-dif
Thumbnail
安裝 Git https://git-scm.com/downloads 下載waifu-diffusion模型 https://huggingface.co/hakurei/waifu-diffusion 完整下載 https://huggingface.co/hakurei/waifu-dif
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News