【Hugging Face】Ep.2 初探新手村, 打造專屬的翻譯官

閱讀時間約 7 分鐘
圖片來源
我們已經介紹過關於Transformer模型的平台「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」,而這次就來實際動手進行開發,讓我們自己的AI自己做。
由於AI模型的訓練往往都會比較耗時, 因此建議需要有GPU環境會比較有效率一些, 否則訓練模行動輒好幾個小時才能看到結果, 一來一往之間, 當我們調好一版可用的模型時已經浪費了不少青春去了…。
基本上怎麼開始呢? 其實有分為兩條路徑, 一條是全部自己擁有, 將環境架設於本地端, 另一種則是使用雲端服務, 例如學術研究的Google Colab, 我們都會分別示範如何開始。

主題

這次的任務是自行打造一個翻譯官, 幫我們將中文翻譯成英文, 預計使用的模型為「Helsinki-NLP/opus-mt-zh-en」, 就讓我們分別示範如何在本地端與Google Colab上使用吧!

本地端

當我們非常Care數據是應該私有的, 不流於雲上時, 這時候本地端架設會是較好的選擇, 但相對應的也要有足夠的硬體, 成本相對較高。
另外會建議基於Docker、Container這種容器化技術為基礎進行環境架設, 如此一來才能夠避免因為系統環境的因素導致訓練失敗或者辨識失敗…等狀況。
首先請安裝一下Docker, 請參考「Install Docker Engine」, 至於什麼是Docker, 我們之後會另外撰寫一篇來進行介紹, 並在此補充, 這邊假設您已經是Docker/Container專家為基礎進行說明。
安裝完畢後就是選用合適的image了, 所謂image就是所謂的映像檔(虛擬機時期常常聽到的), 這邊會建議使用nvidia官方的image「PyTorch Release Notes」, 這邊我們會選用「nvcr.io/nvidia/pytorch:22.12-py3」這個版本來進行示範。
基本上Docker安裝完畢之後, 我們會用docker compose來管理配置的部份, 大致上如下:
version: "3.8"
services:
jupyter:
image: nvcr.io/nvidia/pytorch:22.12-py3
tmpfs:
- /tmp
ports:
- "8888:8888"
volumes:
- ./:/workspace
runtime: nvidia
command: jupyter notebook --ip=0.0.0.0 --port=8888 --allow-root --NotebookApp.token='test'
接著啟動我們的環境
docker compose up -d
再來開啟jupyter的網站:http://127.0.0.1:8888/login, 然後將token=text輸入就可以進行登錄了。
登入成功之後, 我們就可以來創建一個筆記本。
安裝一下必要元件。
!pip install transformers

# This tokenizer cannot be instantiated. Please make sure you have `sentencepiece` installed in order to use this tokenizer.
!pip install sentencepiece

!pip install sacremoses
接著進行翻譯任務。
from transformers import pipeline
translator = pipeline("translation", model='Helsinki-NLP/opus-mt-zh-en') #使用翻譯任務
translator('這是一個很困難的問題')
最終結果如下,成功幫我們進行翻譯。

Google Colab

當我們不想維護硬體時, 雲端的Google Colab就是最好的選擇了, 因為它整合了完整的python環境, 讓我們可以透過類似Jupyter的方式進行開發, 並分享腳本, 基本上比較適合學生、數據資料學家或是 AI 研究人員, 可以快速驗證概念或者訓練方向是否正確, 支援CPU、GPU甚至TPU, 但要注意的是除了CPU以外其他的運算單元都是會有額度限制的, 超過額度可是得付費的。
怎麼開始使用Google Colab呢? 請參考「【Google Colab系列】台股分析預備式: Colab平台與Python如何擦出火花?」, 假設你已經學會如何開筆記本了, 那就讓我們開始吧!
首先安裝一下最重要的Transformers元件吧
!pip install transformers

# This tokenizer cannot be instantiated. Please make sure you have `sentencepiece` installed in order to use this tokenizer.
!pip install sentencepiece

!pip install sacremoses
接著進行翻譯任務。
from transformers import pipeline
translator = pipeline("translation", model='Helsinki-NLP/opus-mt-zh-en') #使用翻譯任務
translator('這是一個很困難的問題')
最終得到翻譯結果。
今天的範例都在這裡「📦huggingface/opus_mt_zh_en.ipynb」歡迎自行取用。

結語

整個過程非常的簡單, 幾行指令就讓我們完成翻譯的任務, 過往可能需要付費才能使用的API,如今都可以自行擁有了, HuggingFace上有很多模型及任務可以使用, 不妨親自動手玩看看, 會讓我們對於AI領域有更進一步的認識喔, 下一個篇章將會陸續介紹不同的任務與不同的模型, 甚至自己動手訓練模型, 就讓我們持續學習下去吧!
喜歡撰寫文章的你,不妨來了解一下:
歡迎加入一起練習寫作,賺取知識!

更多關於【Hugging Face 系列】…

為什麼會看到廣告
109會員
250內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
留言0
查看全部
發表第一個留言支持創作者!
阿Han的沙龍 的其他內容
它到底是什麼? 簡單說Hugging Face是人工智慧開源平台,開發者發表和共享預訓練模型、資料庫和示範檔案等。Hugging Face共享超過10萬個預訓練模型,上萬資料庫,包括微軟、Google、彭博、英特爾等各行業上萬機構都有使用Hugging Face。 理念與目標 我們都知道最近火紅的O
正常來說這種大型LLM公司都會有內容審查功能, 照理說不應該讓AI回答有害的、暴力的…等負面回應, 以Chatgpt來說經實驗後確實是如此, 但仍可以透過欺騙的方式讓它間接的回答, 有一點挖坑給AI跳的概念…。 好人形象的ChatGPT 非常聰明的閃避掉違法的問題, 看來內部已經經過嚴格的審查過程,
雖然ChatGPT這種基於大型語言模型(LLM)的助手, 在大部分的場景都能滿足我們的需求, 但也並非完美, 在使用時仍需注意一些隱患。 以下是LLM的一些缺陷及需要注意的點。 弱弱的數學造成明顯錯誤 過份樂觀帶來錯誤資訊 相信常常使用ChatGPT的朋友應該都有發現到, 不論我們怎麼提問, Cha
前一篇我們有提到「【Generative AI - Prompt篇】Ep.3 讓AI身歷其境的角色提示法」如何催眠AI成為專家,藉著該提示技巧讓AI可以針對該領域進行專業的回答,但…這還不夠,我們還希望AI可以更強大,可以根據我們設計的範本,進行相同規格的輸入與輸出。 我們在前面幾個篇章也玩過一些P
倖存者偏差(Survivorship bias)是一種認知偏差,指的是在觀察研究對象時,只關注了「倖存」或「成功」的部分,而忽略了已經「消失」或「失敗」的部分。 這種偏差通常發生在樣本不完整或有遺漏的情況下,而且容易導致對結果做出誤導性的評估或推論。 尤其AI的時代來臨,基石源自於數據,數據相當於燃
前面我們有介紹「【Generative AI — Prompt篇】Ep.1 什麼是Prompt Engineering?」相信對於下指令給AI應該已經具有基本知識,那麼這一次我們來介紹Prompt技巧中的其中一環「角色提示法」,這是什麼樣的一種魔法呢? 很簡單,我們就是讓AI變身成專家,賦予特定領域
它到底是什麼? 簡單說Hugging Face是人工智慧開源平台,開發者發表和共享預訓練模型、資料庫和示範檔案等。Hugging Face共享超過10萬個預訓練模型,上萬資料庫,包括微軟、Google、彭博、英特爾等各行業上萬機構都有使用Hugging Face。 理念與目標 我們都知道最近火紅的O
正常來說這種大型LLM公司都會有內容審查功能, 照理說不應該讓AI回答有害的、暴力的…等負面回應, 以Chatgpt來說經實驗後確實是如此, 但仍可以透過欺騙的方式讓它間接的回答, 有一點挖坑給AI跳的概念…。 好人形象的ChatGPT 非常聰明的閃避掉違法的問題, 看來內部已經經過嚴格的審查過程,
雖然ChatGPT這種基於大型語言模型(LLM)的助手, 在大部分的場景都能滿足我們的需求, 但也並非完美, 在使用時仍需注意一些隱患。 以下是LLM的一些缺陷及需要注意的點。 弱弱的數學造成明顯錯誤 過份樂觀帶來錯誤資訊 相信常常使用ChatGPT的朋友應該都有發現到, 不論我們怎麼提問, Cha
前一篇我們有提到「【Generative AI - Prompt篇】Ep.3 讓AI身歷其境的角色提示法」如何催眠AI成為專家,藉著該提示技巧讓AI可以針對該領域進行專業的回答,但…這還不夠,我們還希望AI可以更強大,可以根據我們設計的範本,進行相同規格的輸入與輸出。 我們在前面幾個篇章也玩過一些P
倖存者偏差(Survivorship bias)是一種認知偏差,指的是在觀察研究對象時,只關注了「倖存」或「成功」的部分,而忽略了已經「消失」或「失敗」的部分。 這種偏差通常發生在樣本不完整或有遺漏的情況下,而且容易導致對結果做出誤導性的評估或推論。 尤其AI的時代來臨,基石源自於數據,數據相當於燃
前面我們有介紹「【Generative AI — Prompt篇】Ep.1 什麼是Prompt Engineering?」相信對於下指令給AI應該已經具有基本知識,那麼這一次我們來介紹Prompt技巧中的其中一環「角色提示法」,這是什麼樣的一種魔法呢? 很簡單,我們就是讓AI變身成專家,賦予特定領域
你可能也想看
Google News 追蹤
Thumbnail
本專欄將提供給您最新的市場資訊、產業研究、交易心法、精選公司介紹,以上內容並非個股分析,還請各位依據自身狀況作出交易決策。歡迎訂閱支持我,獲得相關內容,也祝您的投資之路順遂! 每年 $990 訂閱方案👉 https://reurl.cc/VNYVxZ 每月 $99 訂閱方案👉https://re
Ai made a article tells everyone 從前,在一座摩天大樓林立、街道繁忙的繁華都市中,住著一群朋友,他們一直在尋找新的方式讓他們的生活更輕鬆、更方便。有一天,他們偶然發現了一件令人驚奇的事情——一個可以執行任務、提供信息,甚至可以進行隨意交談的虛擬助手。 起初,他們
Thumbnail
2020年,一場席捲全球的疫情不只打亂了全球產業脈動,也讓漂流海外的我們感到十分無奈。昨天看到一則新聞寫出了全球外派台人的縮影。 這篇文章主要是想記錄在台灣媒體對於越南疫情報導下看不見的、我們的生活,以及我們在當地面臨的挑戰。
Thumbnail
怎麼樣能把經學用在自己文學創作上呢?歷來有幾種方法。第一種是以經為詩料,作為文章的材料。這是唐宋以降編類書時常用的方法。 中國的類書基本上是文學性的,以備文士采擇,寫文章時用來引經據典。 古代文人怎麼讀這麼多書呢?滾瓜爛熟,隨口就可以引。不要怕,編好類書,寫文章時就方便了,要用什麼典故,查類書
Thumbnail
Jacob Morch on Unsplash 我對政治沒有什麼立場,如果你問我。我支持九二共識嗎?當然,反正一個中國,各自表述,也就是用白話文說,你認為的一個中國,我認為的一個中國,但不是你認為的「一個中國」,因為我把中國與台灣分得清清楚楚。中國就是中國,台灣就是台灣,你想要把我納入你的「一個中
Thumbnail
原來我好心疼我自己 當你進入到睡眠狀態的時候 你會看見那個在你內心深處的自己
Thumbnail
獨立自售和受人雇的行銷人員創意的自由範疇
Thumbnail
大家都一樣是人,何苦為難彼此? 還記得那時瘋狂的A thousand years,超愛的暮光之城,狼人、吸血鬼(你/妳喜歡裡面哪個角色呢?),今天這首Human則是滿滿的....
Thumbnail
​ 在基隆市中心要找素食店家其實並不是很多,詹家素食就是一家基隆的經典店家之一,不但素食者喜歡吃,連非素食者也說讚。這家素食館還被郵輪旅遊網,推薦為來到基隆必吃的美食店家之一。 詹家素食相關資訊:: ​ 基隆市仁愛區仁四路20號 ​ 02      2426     7159 ​ PM10:00AM
Thumbnail
本專欄將提供給您最新的市場資訊、產業研究、交易心法、精選公司介紹,以上內容並非個股分析,還請各位依據自身狀況作出交易決策。歡迎訂閱支持我,獲得相關內容,也祝您的投資之路順遂! 每年 $990 訂閱方案👉 https://reurl.cc/VNYVxZ 每月 $99 訂閱方案👉https://re
Ai made a article tells everyone 從前,在一座摩天大樓林立、街道繁忙的繁華都市中,住著一群朋友,他們一直在尋找新的方式讓他們的生活更輕鬆、更方便。有一天,他們偶然發現了一件令人驚奇的事情——一個可以執行任務、提供信息,甚至可以進行隨意交談的虛擬助手。 起初,他們
Thumbnail
2020年,一場席捲全球的疫情不只打亂了全球產業脈動,也讓漂流海外的我們感到十分無奈。昨天看到一則新聞寫出了全球外派台人的縮影。 這篇文章主要是想記錄在台灣媒體對於越南疫情報導下看不見的、我們的生活,以及我們在當地面臨的挑戰。
Thumbnail
怎麼樣能把經學用在自己文學創作上呢?歷來有幾種方法。第一種是以經為詩料,作為文章的材料。這是唐宋以降編類書時常用的方法。 中國的類書基本上是文學性的,以備文士采擇,寫文章時用來引經據典。 古代文人怎麼讀這麼多書呢?滾瓜爛熟,隨口就可以引。不要怕,編好類書,寫文章時就方便了,要用什麼典故,查類書
Thumbnail
Jacob Morch on Unsplash 我對政治沒有什麼立場,如果你問我。我支持九二共識嗎?當然,反正一個中國,各自表述,也就是用白話文說,你認為的一個中國,我認為的一個中國,但不是你認為的「一個中國」,因為我把中國與台灣分得清清楚楚。中國就是中國,台灣就是台灣,你想要把我納入你的「一個中
Thumbnail
原來我好心疼我自己 當你進入到睡眠狀態的時候 你會看見那個在你內心深處的自己
Thumbnail
獨立自售和受人雇的行銷人員創意的自由範疇
Thumbnail
大家都一樣是人,何苦為難彼此? 還記得那時瘋狂的A thousand years,超愛的暮光之城,狼人、吸血鬼(你/妳喜歡裡面哪個角色呢?),今天這首Human則是滿滿的....
Thumbnail
​ 在基隆市中心要找素食店家其實並不是很多,詹家素食就是一家基隆的經典店家之一,不但素食者喜歡吃,連非素食者也說讚。這家素食館還被郵輪旅遊網,推薦為來到基隆必吃的美食店家之一。 詹家素食相關資訊:: ​ 基隆市仁愛區仁四路20號 ​ 02      2426     7159 ​ PM10:00AM