【Hugging Face】Ep.5 文字世界中的超能力語言英雄(Named Entity Recognition)

更新於 發佈於 閱讀時間約 5 分鐘

圖片來源

這次來介紹一下NLP自然語言處理中重要的一個任務「命名實體識別(Named Entity Recognition)」, 這個任務主要識別出「人名」、「地名」、「公司」…等實體, 透過這些實體辨識結果, 可以近一步的理解意圖, 甚至判斷出該文章主要在講什麼重點…等。

關於更多NER的細節歡迎閱讀: 「【自然語言處理 - spaCy】善用ChatGPT幫我們訓練出自訂的Name Entity Recognition實體

找看看有哪些可用模型

在「【Hugging Face】Ep.3 前往Dataset掏金趣」我們有介紹過HuggingFace平台如何精準的找出我們需要的模型, 那這次我們要找的任務是「Token Classification」,語言為「Chinese」, 我們就來選用最多人使用的「xlm-roberta-large-finetuned-conll03-english」吧!

圖片來源

準備文本

text = '台灣是一個非常美麗的地區'

安裝套件

!pip install transformers
!pip install pandas

進行NER任務

from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification
import pandas as pd
tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large-finetuned-conll03-english")
model = AutoModelForTokenClassification.from_pretrained("xlm-roberta-large-finetuned-conll03-english")
ner = pipeline("ner", model=model, tokenizer=tokenizer)
results = ner("台灣是一個非常美麗的地區")

pd.DataFrame(results)

圖片來源

上述的結果辨識出「台灣」是一個「I-LOC」的實體, 當然這個實體的標籤我們也可以自己去定義它。

今天的範例都在這裡「📦 huggingface/huggingface_ner.ipynb」歡迎自行取用。

如何使用請參閱「【Google Colab系列】台股分析預備式: Colab平台與Python如何擦出火花?」。

結語

初步了解到Hugging Face架構之後深深感受到標準化的好處, 有點像是鴻海MIH平台一般, 賦能給各個開發者到這個平台共同發展AI模型, 雖說獲利模式是否足以支撐起一家公司仍待時間進行驗證, 但平台已經讓各種NLP技術的發展更快速, 也縮小著技術屏障的隔閡。

喜歡撰寫文章的你,不妨來了解一下:

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 - 為什麼要加入?

歡迎加入一起練習寫作,賺取知識!


更多關於【Hugging Face 系列】…

留言
avatar-img
留言分享你的想法!
avatar-img
阿Han的沙龍
129會員
284內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
阿Han的沙龍的其他內容
2025/04/23
我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器, 使用起來大幅度的提昇開發效率, 但仍有些問題點需要克服, 比如說: LLM壓根不知道我們的數據庫長怎樣啊? 怎麼分析結構呢? 假設文檔又不足的狀況下更是艱辛, 如果LLM
Thumbnail
2025/04/23
我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器, 使用起來大幅度的提昇開發效率, 但仍有些問題點需要克服, 比如說: LLM壓根不知道我們的數據庫長怎樣啊? 怎麼分析結構呢? 假設文檔又不足的狀況下更是艱辛, 如果LLM
Thumbnail
2025/03/12
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術, 該套GPT-SoVITS也非常的出色, 但效能有點不是非常理想, 加上需要GPU才能達到較佳的體驗, 如此一來成本就會有點高了, 因此我們找了另外一套MeloTTS, 這一套強調CPU推理非常的快!
Thumbnail
2025/03/12
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術, 該套GPT-SoVITS也非常的出色, 但效能有點不是非常理想, 加上需要GPU才能達到較佳的體驗, 如此一來成本就會有點高了, 因此我們找了另外一套MeloTTS, 這一套強調CPU推理非常的快!
Thumbnail
2025/03/05
我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務, 但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術, 因此我們可能會需要將API退回舊版, 在這裡我們也整理了早期版本api與api_v2的一些差異, 期望幫助到正在面臨選
Thumbnail
2025/03/05
我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務, 但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術, 因此我們可能會需要將API退回舊版, 在這裡我們也整理了早期版本api與api_v2的一些差異, 期望幫助到正在面臨選
Thumbnail
看更多
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
前言 承上一篇筆記文章,繼續閱讀推薦的第二篇論文:Identity Mappings in Deep Residual Networks—Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun。也是一樣的發表者,內容是對他們之前發表的Deep Residual
Thumbnail
前言 承上一篇筆記文章,繼續閱讀推薦的第二篇論文:Identity Mappings in Deep Residual Networks—Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun。也是一樣的發表者,內容是對他們之前發表的Deep Residual
Thumbnail
在今年 6 月黃仁勳於台大綜合體育館的演講中,有一個環節是在其身後背板上列出所有 NVIDIA 的台灣供應鏈夥伴,新漢集團就是其中之一。
Thumbnail
在今年 6 月黃仁勳於台大綜合體育館的演講中,有一個環節是在其身後背板上列出所有 NVIDIA 的台灣供應鏈夥伴,新漢集團就是其中之一。
Thumbnail
介紹這次Computex的兩大主題,AI Server與AI PC,展現了台灣廠商強大的供應能力,隨處可見黃仁勳的簽名,展示了美國頂尖企業與台灣製造那層密不可分的夥伴關係,就讓我們一起來探索,這些尖端科技產品。
Thumbnail
介紹這次Computex的兩大主題,AI Server與AI PC,展現了台灣廠商強大的供應能力,隨處可見黃仁勳的簽名,展示了美國頂尖企業與台灣製造那層密不可分的夥伴關係,就讓我們一起來探索,這些尖端科技產品。
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
Thumbnail
在科技發展的浪潮中,生成式AI無疑是引領未來的關鍵力量。透過深度學習技術,AI系統能夠從大量資料中發掘規律,並創造出全新的內容,無論是文字、圖像、音頻還是視頻,都可以在AI的加持下重新定義。
Thumbnail
即將舉辦的2024 COMPUTEX Forum將聚集全球科技領袖,共同探討生成式 AI 的未來發展,也代表臺灣在全球 AI 產業中的重要地位。文章也特別介紹了GeniAuto_X應用在企業內部(業務及行銷部門)和外部客服的生成式AI對話機器人,有助於臺灣企業與生成式AI的接軌,提升整體運營效率。
Thumbnail
即將舉辦的2024 COMPUTEX Forum將聚集全球科技領袖,共同探討生成式 AI 的未來發展,也代表臺灣在全球 AI 產業中的重要地位。文章也特別介紹了GeniAuto_X應用在企業內部(業務及行銷部門)和外部客服的生成式AI對話機器人,有助於臺灣企業與生成式AI的接軌,提升整體運營效率。
Thumbnail
「台灣是我們非常珍貴的夥伴的集中地,NVIDIA的一切都從這裡開始。我們的夥伴和銷售團隊,從台灣把這一切帶到全世界。台灣與輝達的合作,創造了全世界的AI基礎架構」。這是黃仁勳在台大演講的開場白。台灣是現在全球半導體和 AI 的重鎮。頂尖的技術和優秀的人才,將世界帶到台灣。 面對台灣產業和人民的
Thumbnail
「台灣是我們非常珍貴的夥伴的集中地,NVIDIA的一切都從這裡開始。我們的夥伴和銷售團隊,從台灣把這一切帶到全世界。台灣與輝達的合作,創造了全世界的AI基礎架構」。這是黃仁勳在台大演講的開場白。台灣是現在全球半導體和 AI 的重鎮。頂尖的技術和優秀的人才,將世界帶到台灣。 面對台灣產業和人民的
Thumbnail
紀錄片探討了中國大陸在 AI 領域的發展現狀、潛力、機遇和挑戰。透過實地考察和專家評論,為觀眾呈現一個立體、客觀的中國大陸 AI 發展藍圖。
Thumbnail
紀錄片探討了中國大陸在 AI 領域的發展現狀、潛力、機遇和挑戰。透過實地考察和專家評論,為觀眾呈現一個立體、客觀的中國大陸 AI 發展藍圖。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News