不知道畢專要做什麼,反正現在流行 AI,那就先來研究一下吧!
雖然上一篇還在吐槽,這個時代學習新知識會跑去找 ChatGPT,但不得不說生成式 AI 是真香,或者更精確地說「大型語言模型(LLM, Large Language Model)」(以下簡稱LLM),有用過的朋友應該都知道他的優點:
- 高效率、節省時間
- 提供靈感、增強創造力
- 非專業人士也能用
- 高度客製化與可擴展性
但就是這麼一個神隊友,卻有著讓大公司不敢使用的風險存在,就是「資料安全」的問題
使用 LLM 處理機密資料(如行銷策略、關鍵技術、個資)時,可能會有資料外洩的風險,你也無法保證輸入的資料會不會被用來當成模型訓練的素材所以,既不希望資料外洩又想用 LLM 的話,就只能...自己做一個!但那樣成本又太高,動輒千萬美金絕對不是一般企業願意投入的(像我們這種窮大學生就更不可能了🥲)
所以就只能下載已經訓練好的「開源模型」並且在本地部署,這裡我們要先來介紹一個神隊友 Hugging Face
Hugging Face
Hugging Face 人稱「AI界的Github」,他上面不只有全球最多的已經訓練好的模型與訓練資料庫、整合不同模型的API,
最重要的是他開發了一個標準化的函式庫 Transformers 將不同的模型進行串連,大幅降低開發門檻,讓深度學習不再止步於研究用途,而是能夠產生商業價值、普及於社會大眾之中改善生活品質的一項技術
有以下三種很好用的函式庫 (Library) :
Transformers
整合各式 LLM 的神級函式庫,可以
- 快速進行文本分類、生成、翻譯、問答、摘要等任務
- 支援 PyTorch / TensorFlow / Flax 等函式庫
- 寫一行就能使用模型的封裝工具包 pipeline
Tokenizers
超高速的文字拆分與編碼套件,可以將輸入文字轉換為 token(分詞單元),這些 token 是模型用來理解和處理文字的基本單元
你可能會想說,為什麼要把一句話拆分?其實這對 NLP(自然語言處理)非常重要,因為模型需要先將文字轉換為 token 才能進行處理,並逐字、逐詞進行理解
Datasets
乾淨統一的資料集工具(乾淨的資料是指 沒有錯誤、破損、格式不正確或重複...的資料)
訓練大型語言模型 (LLM) 最重要也最麻煩的就是取得大量又完整的資料,Datasets 是讓使用者能夠跟 Hugging Face Hub 取得資料集的 API
使用者可以從 Hugging Face 下載模型來用,總共有 180 萬個以上的開源模型可以使用,包含常見的 GPT-2、Deepseek、Ollama...,還可以導入他的各種超方便 Library(函式庫) 前面提到的 Transformers 就是其中之一
見識到 Hugging Face 有多厲害之後,接著就是要實作啦!我們下一篇將會來看到 Transformers 到底有多好用~
*抱歉好一段時間沒有更新了,因為最近比較忙加上又是新東西,所以就了比較久