【Hugging Face】Ep.1 平凡人也能玩的起的AI平台

閱讀時間約 5 分鐘

它到底是什麼?

簡單說Hugging Face是人工智慧開源平台,開發者發表和共享預訓練模型、資料庫和示範檔案等。Hugging Face共享超過10萬個預訓練模型,上萬資料庫,包括微軟、Google、彭博、英特爾等各行業上萬機構都有使用Hugging Face。

理念與目標

我們都知道最近火紅的OpenAI公開的ChatGPT非常熱門, 但在開發者服務方面, OpenAI正在搭起人工智慧的圍牆, 僅允許滿足條件的企業或個人進入, 而「Hugging Face」希望每個人都能做出生成式AI的模型, 有點像是Github的概念, 讓整個資訊科技可以快速推進。
巨頭努力築起AI的圍牆的戰場之下, 「Hugging Face」有點像強力的民兵, 擁抱開放, 讓一般的平民老百姓也有機會接觸到高深的AI技術, 不再讓這些尖端技術掌握在巨頭手中, 因此也吸引了不少的擁護者, 其實一開始的「Hugging Face」是針對年輕人開發的聊天機器人, 且技術基於NLP(自然語言處理), Transformer模型的出現瞬間成為自然語言領域最受開發者關注的模型,也讓Hugging Face一炮而紅。

商業模式

Hugging Face」以賦能為出發點讓整個AI社群發揚光大, 因此只要在其中獲得1%的變現就能夠撐起一間公司, 類似於elasticmongodb…等。

Hugging Face Hub

相信只要是開發者都知道Github是一個儲存程式碼的倉庫, 但AI模型呢? 總要有個地方集中控管吧!
如果有興趣的朋友請至這裡參考參考: https://huggingface.co/docs/hub/index
我們可以發現到除了模型以外, 資料集、靜態網頁空間、報告空間.., 非常的豐富, 讓我們可以將開發好的專案完整的放置Hub之上, 透過學習交流的方式加快人工智慧的進程。

組成的元件

使用Hugging Face務必要了解最重要的三大元件, 基本上各種任務的模型(語音辨識、影像分類、NLP…), 都是離不開這三大元件的。

Transformers

顧名思義就是為了處理各種Transformer模型而開發的元件。

Tokenizers

我們都知道NLP的世界裡, 文字的最小的單位就是詞, 而要將文字化成詞的關鍵就是斷詞, Tokenizers就是扮演著這個角色, 提供了不同的策略也支援前處理、後處理。

Datasets

我們都知道AI訓練的重要養分來源就是資料集, 而Datasets元件就是扮演著如何將資料集管理好的角色, 並提供豐富的API(隨機分類、切割、整合pandas), 讓我們更容易的處理資料。

更多其他的元件

最佳化、加速器的Accelerate、Optimum, 甚至是無代碼工具的AutoTrain…, 都是Hugging Face涵蓋的強大功能。

簡易的使用方式讓我們輕鬆上手

這邊我們就使用wav2vec2的語音辨識模型試玩看看吧!
使用起來非常簡單, 我們只要使用pipeline搭配指定的任務, 就能進行簡單的AI任務, 以這裡的範例為例, 我們會使用「automatic-speech-recognition」語音辨識的任務來進行。
並指定「ydshieh/wav2vec2-large-xlsr-53-chinese-zh-cn-gpt」這個中文模型進行語音辨識。
如何找模型呢?
我們可以在Hugging face首頁直接進行搜尋。
也可以到模型區進行精確的篩選。
最後直接將音檔進行辨識,產生文字, 整個操作流程非常簡易。
import torch

# 引入pipeline
from transformers import pipeline

# 定義任務
asr = pipeline(
"automatic-speech-recognition",
model='ydshieh/wav2vec2-large-xlsr-53-chinese-zh-cn-gpt',
)

# 執行任務
result = asr('./test.wav')

text = result['text']

text
喜歡撰寫文章的你,不妨來了解一下:
歡迎加入一起練習寫作,賺取知識!

更多關於【Hugging Face 系列】…

為什麼會看到廣告
109會員
250內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
留言0
查看全部
發表第一個留言支持創作者!
阿Han的沙龍 的其他內容
正常來說這種大型LLM公司都會有內容審查功能, 照理說不應該讓AI回答有害的、暴力的…等負面回應, 以Chatgpt來說經實驗後確實是如此, 但仍可以透過欺騙的方式讓它間接的回答, 有一點挖坑給AI跳的概念…。 好人形象的ChatGPT 非常聰明的閃避掉違法的問題, 看來內部已經經過嚴格的審查過程,
雖然ChatGPT這種基於大型語言模型(LLM)的助手, 在大部分的場景都能滿足我們的需求, 但也並非完美, 在使用時仍需注意一些隱患。 以下是LLM的一些缺陷及需要注意的點。 弱弱的數學造成明顯錯誤 過份樂觀帶來錯誤資訊 相信常常使用ChatGPT的朋友應該都有發現到, 不論我們怎麼提問, Cha
前一篇我們有提到「【Generative AI - Prompt篇】Ep.3 讓AI身歷其境的角色提示法」如何催眠AI成為專家,藉著該提示技巧讓AI可以針對該領域進行專業的回答,但…這還不夠,我們還希望AI可以更強大,可以根據我們設計的範本,進行相同規格的輸入與輸出。 我們在前面幾個篇章也玩過一些P
倖存者偏差(Survivorship bias)是一種認知偏差,指的是在觀察研究對象時,只關注了「倖存」或「成功」的部分,而忽略了已經「消失」或「失敗」的部分。 這種偏差通常發生在樣本不完整或有遺漏的情況下,而且容易導致對結果做出誤導性的評估或推論。 尤其AI的時代來臨,基石源自於數據,數據相當於燃
前面我們有介紹「【Generative AI — Prompt篇】Ep.1 什麼是Prompt Engineering?」相信對於下指令給AI應該已經具有基本知識,那麼這一次我們來介紹Prompt技巧中的其中一環「角色提示法」,這是什麼樣的一種魔法呢? 很簡單,我們就是讓AI變身成專家,賦予特定領域
前面我們有介紹「【Generative AI — Prompt篇】Ep.1 什麼是Prompt Engineering?」相信對於下指令給AI應該已經具有基本知識了吧,在進入Prompt Engineering之前有一些Guideline是我們需要知道的,就如同線上遊戲一般,我們會先進到新手村學習一
正常來說這種大型LLM公司都會有內容審查功能, 照理說不應該讓AI回答有害的、暴力的…等負面回應, 以Chatgpt來說經實驗後確實是如此, 但仍可以透過欺騙的方式讓它間接的回答, 有一點挖坑給AI跳的概念…。 好人形象的ChatGPT 非常聰明的閃避掉違法的問題, 看來內部已經經過嚴格的審查過程,
雖然ChatGPT這種基於大型語言模型(LLM)的助手, 在大部分的場景都能滿足我們的需求, 但也並非完美, 在使用時仍需注意一些隱患。 以下是LLM的一些缺陷及需要注意的點。 弱弱的數學造成明顯錯誤 過份樂觀帶來錯誤資訊 相信常常使用ChatGPT的朋友應該都有發現到, 不論我們怎麼提問, Cha
前一篇我們有提到「【Generative AI - Prompt篇】Ep.3 讓AI身歷其境的角色提示法」如何催眠AI成為專家,藉著該提示技巧讓AI可以針對該領域進行專業的回答,但…這還不夠,我們還希望AI可以更強大,可以根據我們設計的範本,進行相同規格的輸入與輸出。 我們在前面幾個篇章也玩過一些P
倖存者偏差(Survivorship bias)是一種認知偏差,指的是在觀察研究對象時,只關注了「倖存」或「成功」的部分,而忽略了已經「消失」或「失敗」的部分。 這種偏差通常發生在樣本不完整或有遺漏的情況下,而且容易導致對結果做出誤導性的評估或推論。 尤其AI的時代來臨,基石源自於數據,數據相當於燃
前面我們有介紹「【Generative AI — Prompt篇】Ep.1 什麼是Prompt Engineering?」相信對於下指令給AI應該已經具有基本知識,那麼這一次我們來介紹Prompt技巧中的其中一環「角色提示法」,這是什麼樣的一種魔法呢? 很簡單,我們就是讓AI變身成專家,賦予特定領域
前面我們有介紹「【Generative AI — Prompt篇】Ep.1 什麼是Prompt Engineering?」相信對於下指令給AI應該已經具有基本知識了吧,在進入Prompt Engineering之前有一些Guideline是我們需要知道的,就如同線上遊戲一般,我們會先進到新手村學習一
本篇參與的主題策展
在生成式AI與大型語言模型(Large Language Model, LLM)蓬勃發展下,有許多工具可以幫助我們學習與撰寫程式,這篇文章提供了實作範例與一些經驗,分享如何使用ChatGPT(免費的GPT-3.5)協助程式語言的學習,並且完成屬於自己的程式。
前幾個禮拜,AWS 舉行 Startup Day Taiwan。想當然爾,最熱門的主題非生成式 AI (Generative AI) 莫屬。既然 AWS 有現成的工具,身為一名工程師,自然看看無妨,這篇文章算是新手開箱文,會說明如何部署一套基礎模型,並使用 AWS SDK 與其互動。
前言 我在工作中沒有什麼機會接觸到機器學習,學生時期也沒有學習過相關知識。 作為一個業餘小白,我對機器學習非常感興趣。在自學的過程中,我逐漸意識到利用機器學習可以做很多有趣的事情。 因此,我決定嘗試使用 AWS SageMaker JumpStart 來實驗文字生成式繪圖 AI ,以了解機
最近玩到了一個我覺得很新奇有趣的軟體,叫做SillyTavern。 SillyTavern是專用於創建虛擬角色的AI聊天軟體,SillyTavern是TavernAI的分支,但SillyTavern走上了自己的路,加進了許多額外功能,並且仍在積極的持續更新中。 然後,可以色色!
「Prompt」這個詞是提示的意思,但為什麼需要提示呢? 當AI不理解我們的時候,勢必給出的回應並非準確的為我們解答,因此一個好的提示是非常重要的,就如同我們人與人之間的溝通一樣,如何將自己心裡的疑惑轉化成好的問題來提問對方,讓對方理解,進而給出一個明確的答案,這就是提示(Prompt)的重要性,對
在生成式AI與大型語言模型(Large Language Model, LLM)蓬勃發展下,有許多工具可以幫助我們學習與撰寫程式,這篇文章提供了實作範例與一些經驗,分享如何使用ChatGPT(免費的GPT-3.5)協助程式語言的學習,並且完成屬於自己的程式。
前幾個禮拜,AWS 舉行 Startup Day Taiwan。想當然爾,最熱門的主題非生成式 AI (Generative AI) 莫屬。既然 AWS 有現成的工具,身為一名工程師,自然看看無妨,這篇文章算是新手開箱文,會說明如何部署一套基礎模型,並使用 AWS SDK 與其互動。
前言 我在工作中沒有什麼機會接觸到機器學習,學生時期也沒有學習過相關知識。 作為一個業餘小白,我對機器學習非常感興趣。在自學的過程中,我逐漸意識到利用機器學習可以做很多有趣的事情。 因此,我決定嘗試使用 AWS SageMaker JumpStart 來實驗文字生成式繪圖 AI ,以了解機
最近玩到了一個我覺得很新奇有趣的軟體,叫做SillyTavern。 SillyTavern是專用於創建虛擬角色的AI聊天軟體,SillyTavern是TavernAI的分支,但SillyTavern走上了自己的路,加進了許多額外功能,並且仍在積極的持續更新中。 然後,可以色色!
「Prompt」這個詞是提示的意思,但為什麼需要提示呢? 當AI不理解我們的時候,勢必給出的回應並非準確的為我們解答,因此一個好的提示是非常重要的,就如同我們人與人之間的溝通一樣,如何將自己心裡的疑惑轉化成好的問題來提問對方,讓對方理解,進而給出一個明確的答案,這就是提示(Prompt)的重要性,對
你可能也想看
Google News 追蹤
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Ai made a article tells everyone 從前,在一座摩天大樓林立、街道繁忙的繁華都市中,住著一群朋友,他們一直在尋找新的方式讓他們的生活更輕鬆、更方便。有一天,他們偶然發現了一件令人驚奇的事情——一個可以執行任務、提供信息,甚至可以進行隨意交談的虛擬助手。 起初,他們
Thumbnail
2020年,一場席捲全球的疫情不只打亂了全球產業脈動,也讓漂流海外的我們感到十分無奈。昨天看到一則新聞寫出了全球外派台人的縮影。 這篇文章主要是想記錄在台灣媒體對於越南疫情報導下看不見的、我們的生活,以及我們在當地面臨的挑戰。
Thumbnail
怎麼樣能把經學用在自己文學創作上呢?歷來有幾種方法。第一種是以經為詩料,作為文章的材料。這是唐宋以降編類書時常用的方法。 中國的類書基本上是文學性的,以備文士采擇,寫文章時用來引經據典。 古代文人怎麼讀這麼多書呢?滾瓜爛熟,隨口就可以引。不要怕,編好類書,寫文章時就方便了,要用什麼典故,查類書
Thumbnail
Jacob Morch on Unsplash 我對政治沒有什麼立場,如果你問我。我支持九二共識嗎?當然,反正一個中國,各自表述,也就是用白話文說,你認為的一個中國,我認為的一個中國,但不是你認為的「一個中國」,因為我把中國與台灣分得清清楚楚。中國就是中國,台灣就是台灣,你想要把我納入你的「一個中
Thumbnail
原來我好心疼我自己 當你進入到睡眠狀態的時候 你會看見那個在你內心深處的自己
Thumbnail
獨立自售和受人雇的行銷人員創意的自由範疇
Thumbnail
大家都一樣是人,何苦為難彼此? 還記得那時瘋狂的A thousand years,超愛的暮光之城,狼人、吸血鬼(你/妳喜歡裡面哪個角色呢?),今天這首Human則是滿滿的....
Thumbnail
​ 在基隆市中心要找素食店家其實並不是很多,詹家素食就是一家基隆的經典店家之一,不但素食者喜歡吃,連非素食者也說讚。這家素食館還被郵輪旅遊網,推薦為來到基隆必吃的美食店家之一。 詹家素食相關資訊:: ​ 基隆市仁愛區仁四路20號 ​ 02      2426     7159 ​ PM10:00AM
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Ai made a article tells everyone 從前,在一座摩天大樓林立、街道繁忙的繁華都市中,住著一群朋友,他們一直在尋找新的方式讓他們的生活更輕鬆、更方便。有一天,他們偶然發現了一件令人驚奇的事情——一個可以執行任務、提供信息,甚至可以進行隨意交談的虛擬助手。 起初,他們
Thumbnail
2020年,一場席捲全球的疫情不只打亂了全球產業脈動,也讓漂流海外的我們感到十分無奈。昨天看到一則新聞寫出了全球外派台人的縮影。 這篇文章主要是想記錄在台灣媒體對於越南疫情報導下看不見的、我們的生活,以及我們在當地面臨的挑戰。
Thumbnail
怎麼樣能把經學用在自己文學創作上呢?歷來有幾種方法。第一種是以經為詩料,作為文章的材料。這是唐宋以降編類書時常用的方法。 中國的類書基本上是文學性的,以備文士采擇,寫文章時用來引經據典。 古代文人怎麼讀這麼多書呢?滾瓜爛熟,隨口就可以引。不要怕,編好類書,寫文章時就方便了,要用什麼典故,查類書
Thumbnail
Jacob Morch on Unsplash 我對政治沒有什麼立場,如果你問我。我支持九二共識嗎?當然,反正一個中國,各自表述,也就是用白話文說,你認為的一個中國,我認為的一個中國,但不是你認為的「一個中國」,因為我把中國與台灣分得清清楚楚。中國就是中國,台灣就是台灣,你想要把我納入你的「一個中
Thumbnail
原來我好心疼我自己 當你進入到睡眠狀態的時候 你會看見那個在你內心深處的自己
Thumbnail
獨立自售和受人雇的行銷人員創意的自由範疇
Thumbnail
大家都一樣是人,何苦為難彼此? 還記得那時瘋狂的A thousand years,超愛的暮光之城,狼人、吸血鬼(你/妳喜歡裡面哪個角色呢?),今天這首Human則是滿滿的....
Thumbnail
​ 在基隆市中心要找素食店家其實並不是很多,詹家素食就是一家基隆的經典店家之一,不但素食者喜歡吃,連非素食者也說讚。這家素食館還被郵輪旅遊網,推薦為來到基隆必吃的美食店家之一。 詹家素食相關資訊:: ​ 基隆市仁愛區仁四路20號 ​ 02      2426     7159 ​ PM10:00AM