【Hugging Face】Ep.5 文字世界中的超能力語言英雄(Named Entity Recognition)

2023/07/15 更新2023/07/11 發佈閱讀 5 分鐘

這次來介紹一下NLP自然語言處理中重要的一個任務「命名實體識別(Named Entity Recognition)」，這個任務主要識別出「人名」、「地名」、「公司」…等實體，透過這些實體辨識結果，可以近一步的理解意圖，甚至判斷出該文章主要在講什麼重點…等。

關於更多NER的細節歡迎閱讀: 「【自然語言處理 - spaCy】善用ChatGPT幫我們訓練出自訂的Name Entity Recognition實體」

找看看有哪些可用模型

在「【Hugging Face】Ep.3 前往Dataset掏金趣」我們有介紹過HuggingFace平台如何精準的找出我們需要的模型，那這次我們要找的任務是「Token Classification」，語言為「Chinese」，我們就來選用最多人使用的「xlm-roberta-large-finetuned-conll03-english」吧！

準備文本

text = '台灣是一個非常美麗的地區'

安裝套件

!pip install transformers
!pip install pandas

進行NER任務

from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification
import pandas as pd
tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large-finetuned-conll03-english")
model = AutoModelForTokenClassification.from_pretrained("xlm-roberta-large-finetuned-conll03-english")
ner = pipeline("ner", model=model, tokenizer=tokenizer)
results = ner("台灣是一個非常美麗的地區")

pd.DataFrame(results)

上述的結果辨識出「台灣」是一個「I-LOC」的實體，當然這個實體的標籤我們也可以自己去定義它。

今天的範例都在這裡「📦 huggingface/huggingface_ner.ipynb」歡迎自行取用。

如何使用請參閱「【Google Colab系列】台股分析預備式： Colab平台與Python如何擦出火花？」。

結語

初步了解到Hugging Face架構之後深深感受到標準化的好處，有點像是鴻海MIH平台一般，賦能給各個開發者到這個平台共同發展AI模型，雖說獲利模式是否足以支撐起一家公司仍待時間進行驗證，但平台已經讓各種NLP技術的發展更快速，也縮小著技術屏障的隔閡。

喜歡撰寫文章的你，不妨來了解一下：

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 - 為什麼要加入？

歡迎加入一起練習寫作，賺取知識！

更多關於【Hugging Face 系列】…

阿Han的沙龍阿Han的軟體技術棧 💡AI

留言

留言分享你的想法！

阿Han的沙龍

143會員

310內容數

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

阿Han的沙龍的其他內容

2025/04/23

【🤖 cursor AI】如何使用MCP Server

我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器，使用起來大幅度的提昇開發效率，但仍有些問題點需要克服，比如說： LLM壓根不知道我們的數據庫長怎樣啊？怎麼分析結構呢？假設文檔又不足的狀況下更是艱辛，如果LLM

2025/04/23

【🤖 cursor AI】如何使用MCP Server

2025/03/12

【語音合成技術 - MeloTTS】如何建置API服務？

我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術，該套GPT-SoVITS也非常的出色，但效能有點不是非常理想，加上需要GPU才能達到較佳的體驗，如此一來成本就會有點高了，因此我們找了另外一套MeloTTS，這一套強調CPU推理非常的快！

2025/03/12

【語音合成技術 - MeloTTS】如何建置API服務？

2025/03/05

【語音合成技術 - GPT-SoVITS】解析API版本

我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務，但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術，因此我們可能會需要將API退回舊版，在這裡我們也整理了早期版本api與api_v2的一些差異，期望幫助到正在面臨選

2025/03/05

【語音合成技術 - GPT-SoVITS】解析API版本

#AI創作的其他內容

AI工具怎麼幫助我們學習程式－ChatGPT的實踐與範例

Ken Chen 的沙龍

AWS SageMaker 開箱體驗

西尼亞ming的沙龍

沒有機器學習經驗的我嘗試了 Amazon SageMaker JumpStart

你可能也想看

柴郡貓姍蒂的沙龍

筆記-深度學習論文閱讀：Identity Mappings in Deep Residual Networks

前言承上一篇筆記文章，繼續閱讀推薦的第二篇論文：Identity Mappings in Deep Residual Networks—Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun。也是一樣的發表者，內容是對他們之前發表的Deep Residual

#人工智慧#殘差網路#深度學習

2024/07/13

柴郡貓姍蒂的沙龍

筆記-深度學習論文閱讀：Identity Mappings in Deep Residual Networks

#人工智慧#殘差網路#深度學習

2024/07/13

廣告雜誌

台灣製造業如何在 AI 浪潮找到最合適的賽道、搶佔全球雙軸轉型領先地位？專訪新漢集團董事長林茂昌

在今年 6 月黃仁勳於台大綜合體育館的演講中，有一個環節是在其身後背板上列出所有 NVIDIA 的台灣供應鏈夥伴，新漢集團就是其中之一。

#廣告雜誌#傳播圈

2024/07/02

廣告雜誌

台灣製造業如何在 AI 浪潮找到最合適的賽道、搶佔全球雙軸轉型領先地位？專訪新漢集團董事長林茂昌

在今年 6 月黃仁勳於台大綜合體育館的演講中，有一個環節是在其身後背板上列出所有 NVIDIA 的台灣供應鏈夥伴，新漢集團就是其中之一。

#廣告雜誌#傳播圈

2024/07/02

無限智慧學院的沙龍

從Computex 窺探人工智慧產業的發展

介紹這次Computex的兩大主題，AI Server與AI PC，展現了台灣廠商強大的供應能力，隨處可見黃仁勳的簽名，展示了美國頂尖企業與台灣製造那層密不可分的夥伴關係，就讓我們一起來探索，這些尖端科技產品。

#Computex#黃仁勳#Nvidia

2024/06/09

無限智慧學院的沙龍

從Computex 窺探人工智慧產業的發展

#Computex#黃仁勳#Nvidia

2024/06/09

廣告雜誌

黃仁勳風暴(一)：生成式AI強大潛能！AWS與NVIDIA Project Ceiba超級AI運算平台加速創新

在科技發展的浪潮中，生成式AI無疑是引領未來的關鍵力量。透過深度學習技術，AI系統能夠從大量資料中發掘規律，並創造出全新的內容，無論是文字、圖像、音頻還是視頻，都可以在AI的加持下重新定義。

#黃仁勳#AWS#NVIDIA

2024/06/06

廣告雜誌

黃仁勳風暴(一)：生成式AI強大潛能！AWS與NVIDIA Project Ceiba超級AI運算平台加速創新

#黃仁勳#AWS#NVIDIA

2024/06/06

未來巢 | 數位轉型 x 數位科技 xAI應用的沙龍

生成式AI對話機器人：台灣成為AI發展焦點！企業又該如何搭上這股潮流？

即將舉辦的2024 COMPUTEX Forum將聚集全球科技領袖，共同探討生成式 AI 的未來發展，也代表臺灣在全球 AI 產業中的重要地位。文章也特別介紹了GeniAuto_X應用在企業內部(業務及行銷部門)和外部客服的生成式AI對話機器人，有助於臺灣企業與生成式AI的接軌，提升整體運營效率。

#生成式AI#機器人#COMPUTEX

2024/06/04

未來巢 | 數位轉型 x 數位科技 xAI應用的沙龍

生成式AI對話機器人：台灣成為AI發展焦點！企業又該如何搭上這股潮流？

#生成式AI#機器人#COMPUTEX

2024/06/04

存股筆記(2024-06-04) - 台灣拿了一手好牌，政治卻在搞事

「台灣是我們非常珍貴的夥伴的集中地，NVIDIA的一切都從這裡開始。我們的夥伴和銷售團隊，從台灣把這一切帶到全世界。台灣與輝達的合作，創造了全世界的AI基礎架構」。這是黃仁勳在台大演講的開場白。台灣是現在全球半導體和 AI 的重鎮。頂尖的技術和優秀的人才，將世界帶到台灣。面對台灣產業和人民的

#黃仁勳

2024/06/04

存股筆記(2024-06-04) - 台灣拿了一手好牌，政治卻在搞事

#黃仁勳

2024/06/04

未來的學習 X 學習的未來

中國大陸的 AI 豪賭能否贏得最終勝利？

紀錄片探討了中國大陸在 AI 領域的發展現狀、潛力、機遇和挑戰。透過實地考察和專家評論,為觀眾呈現一個立體、客觀的中國大陸 AI 發展藍圖。

#AI#GenAI#人工智慧

2024/04/07

未來的學習 X 學習的未來

中國大陸的 AI 豪賭能否贏得最終勝利？

紀錄片探討了中國大陸在 AI 領域的發展現狀、潛力、機遇和挑戰。透過實地考察和專家評論,為觀眾呈現一個立體、客觀的中國大陸 AI 發展藍圖。

#AI#GenAI#人工智慧

2024/04/07

顥天的方格子算不算一種天方夜譚

如何在 VPS 上部署深度學習環境

本文透過 Cloud Native Taiwan User Group 之 Infra Labs 雲端主機進行深度學習環境部署，包含 Nvidia GPU driver、PyTorch、Jupyter Lab 等，並進行相關安裝過程說明。

#人工智慧#雲端運算#資訊科技

2024/01/24

顥天的方格子算不算一種天方夜譚

如何在 VPS 上部署深度學習環境

本文透過 Cloud Native Taiwan User Group 之 Infra Labs 雲端主機進行深度學習環境部署，包含 Nvidia GPU driver、PyTorch、Jupyter Lab 等，並進行相關安裝過程說明。

#人工智慧#雲端運算#資訊科技

2024/01/24

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News