【自然語言處理 - spaCy】善用ChatGPT幫我們訓練出自訂的Name Entity Recognition實體

更新於 2023/07/14發佈於 2023/07/14閱讀時間約 8 分鐘

回顧上一個篇章「【自然語言處理NLP】初探強大的工具庫spaCy，讓機器讀懂我們的語言」我們初步學習spaCy這套工具，在尾端進行NER時我們也發現到現有的NER模型並沒有辦法滿足我們的需求，導致有一些實體未被識別出來，因此這次的任務就是設法進行訓練，讓我們想要被識別的實體可以被進行識別。

這個篇章主要在示範如何利用spaCy進行訓練，過程中也由於🔥ChatGPT的出現，讓我們可以藉由它來快速產生例句，順利進行訓練，但並非真正要準確做到滿分的NER，因此過程中將以「最簡短的例句」及「CPU」訓練方式完成。

安裝相關套件及下載模型

以下幾個步驟我們先將該準備的模型及語句準備好，再進行調優與訓練。

# 安裝spacy
%pip install spacy

# 下載Transfromer技術的中文語言模型
!python -m spacy download zh_core_web_trf

載入模型並解析

import spacy

# 載入模型
nlp_zh = spacy.load('zh_core_web_trf')

# 對中文語句進行解析
doc = nlp_zh('台灣是一個位於亞洲東部的島嶼國家。')

NER實體識別

我們可以看到實體僅被識別出「台灣」、「亞洲」，但我們更希望「東部」跟「國家」也可以被識別出來，那麼可以怎麼做呢？

from spacy import displacy
     
# 台灣是一個位於亞洲東部的島嶼國家。
displacy.render(doc, style="ent", jupyter=True)

圖片來源

設計訓練資料

假設: 其中「亞洲東部」我們期望實體為「LOC」，而「國家」為「ORG」。

小技巧

利用🔥ChatGPT幫我們列出「東部國家」的一些例句，如何給予提示(Prompt)，就讓大家創意發揮囉，例如: 請幫我列出5句關於「亞洲東部國家的一些特色」。
將這些例句藉由「spacynerannotate」這套工具幫我快速人工標出實體並轉換成spaCy訓練NER的格式，雖然有點不太好用，但為了快速Demo我們就將就點使用吧，另一套更好用的工具是「prodigy」，下次再獨立開一個篇章來玩玩這個標注套件。
將轉換格式後的語句以train儲存起來。

P.S spacynerannotate這套工具轉出來之後，記得要把entities欄位拿掉，留下陣列的值，避免新版spaCy格式錯誤。

# 錯誤的格式：
("在亞洲東部國家，教育非常重要，其高水平的教育體系吸引著世界各地的學生前來留學。",{"entities":[(3,5,"LOC"),(5,7,"ORG")]})

# 正確的格式：
("在亞洲東部國家，教育非常重要，其高水平的教育體系吸引著世界各地的學生前來留學。",[(3,5,"LOC"),(5,7,"ORG")])

training_data = [
    ("台灣的風景都非常美麗",[(0,2,"GPE")]),
    ("亞洲東部國家的一些特色包括擁有豐富多彩的文化遺產和傳統習俗。",[(0,4,"LOC"),(4,6,"ORG")]),
    ("在亞洲東部國家，食品文化有著獨特的地位，其美食吸引著眾多遊客前來品嚐。",[(1,5,"LOC"),(5,7,"ORG")]),
    ("亞洲東部國家的經濟以製造業和出口為主，是全球經濟中的關鍵角色。",[(0,4,"LOC"),(4,6,"ORG")]),
    ("在亞洲東部國家，教育非常重要，其高水平的教育體系吸引著世界各地的學生前來留學。",[(3,5,"LOC"),(5,7,"ORG")]),
    # ("亞洲東部國家的一些城市，如東京、首爾和上海等，擁有先進的科技和發達的城市建設，是現代化的代表。",[(2,4,"LOC"),(4,6,"ORG"),(13,15,"ORG"),(16,18,"ORG"),(19,21,"ORG")]),
]

轉換成spaCy的格式

請參考官方文件： https://spacy.io/usage/training#training-data

以下的程式碼僅進行訓練集(train.spacy)的製作，開發集(dev.spacy)就得自行依樣畫葫蘆做一份，以便後續的訓練過程能夠順利完成。

當然我們也可以在後續的參數配置上將訓練集與開發集設定為同一份，雖然結果會造成自我感覺良好，但這邊只是概念的展示，就不多加著墨了。

import spacy
from spacy.tokens import DocBin
from tqdm import tqdm

nlp = spacy.blank("zh")

# the DocBin will store the example documents
db = DocBin()
for text, annotations in tqdm(training_data):
    _doc = nlp(text)
    ents = []
    for start, end, label in annotations:
        span = _doc.char_span(start, end, label=label)
        ents.append(span)
    _doc.ents = ents
    db.add(_doc)
db.to_disk("./train.spacy")

配置訓練檔

我們先從官方勾選需要配置的訓練方式：

P.S 這邊記得將vectors="zh_core_web_lg"改成vectors="zh_core_web_trf"

圖片來源

填充完整的配置

我們使用spacy init來進行填充。

!python -m spacy init fill-config base_config.cfg config.cfg

進行訓練

!python -m spacy train config.cfg --output ./output --paths.train ./train.spacy --paths.dev ./train.spacy

載入訓練完的模型

這邊就載入最好的模型來看看吧

best_model = spacy.load(r"./output/model-last") #load the best model

重新進行NER辨識

結果如我們預期，分別將「台灣」、「亞洲東部」、「國家」這些實體給標示出來。

但目前是作弊方式，小資料量相似語句進行訓練當然能夠順利辨識，真實的標注方式可是很多狀況的，相似詞語標注不同的實體時，這些模糊資料如何訓練出較為精準的實體，就是NER的真正精髓所在。

from spacy import displacy

new_doc = best_model("台灣是一個位於亞洲東部的島嶼國家。")


# 台灣是一個位於亞洲東部的島嶼國家。
displacy.render(new_doc, style="ent", jupyter=True)

圖片來源

今天的範例都在這裡「📦 spacy_1.ipynb」歡迎自行取用。

如何使用請參閱「【Google Colab系列】台股分析預備式： Colab平台與Python如何擦出火花？」。

結語

這邊我們只是示範如何運用spaCy進行NER的模型訓練，實際上的訓練工法是有一套理論跟邏輯存在的，絕非我們範例中幾句例句就能夠標出準確的NER標籤，下次將嘗試介紹NER的訓練語句該如何設計，這樣一來才能真正的結合實務與理論，完成一個真正可用的系統。

------------------------------------------------------------------------------------------------

喜歡撰寫文章的你，不妨來了解一下：

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 - 為什麼要加入？

歡迎加入一起練習寫作，賺取知識，累積財富！

#AI

#AI創作

#技術組

阿Han的沙龍阿Han的軟體技術棧 💡AI

留言

留言分享你的想法！

阿Han的沙龍

137會員

301內容數

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

阿Han的沙龍的其他內容

2025/04/23

【🤖 cursor AI】如何使用MCP Server

我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器，使用起來大幅度的提昇開發效率，但仍有些問題點需要克服，比如說： LLM壓根不知道我們的數據庫長怎樣啊？怎麼分析結構呢？假設文檔又不足的狀況下更是艱辛，如果LLM

2025/04/23

【🤖 cursor AI】如何使用MCP Server

2025/03/12

【語音合成技術 - MeloTTS】如何建置API服務？

我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術，該套GPT-SoVITS也非常的出色，但效能有點不是非常理想，加上需要GPU才能達到較佳的體驗，如此一來成本就會有點高了，因此我們找了另外一套MeloTTS，這一套強調CPU推理非常的快！

2025/03/12

【語音合成技術 - MeloTTS】如何建置API服務？

2025/03/05

【語音合成技術 - GPT-SoVITS】解析API版本

我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務，但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術，因此我們可能會需要將API退回舊版，在這裡我們也整理了早期版本api與api_v2的一些差異，期望幫助到正在面臨選

2025/03/05

【語音合成技術 - GPT-SoVITS】解析API版本

#AI創作的其他內容

AI工具怎麼幫助我們學習程式－ChatGPT的實踐與範例

Ken Chen 的沙龍

AWS SageMaker 開箱體驗

西尼亞ming的沙龍

沒有機器學習經驗的我嘗試了 Amazon SageMaker JumpStart

你可能也想看

黛•Adele的生活隨筆

斜槓生活日常｜不受時間空間限制，分享喜歡的產品也能有被動收入｜蝦皮分潤計畫

常常被朋友問「哪裡買的？」嗎？透過蝦皮分潤計畫，把日常購物的分享多加一個步驟，就能轉換成現金回饋。門檻低、申請簡單，特別適合學生與上班族，讓零碎時間也能創造小確幸。

#蝦皮分潤計畫#蝦皮聯盟行銷#蝦皮副業

2025/09/06

黛•Adele的生活隨筆

斜槓生活日常｜不受時間空間限制，分享喜歡的產品也能有被動收入｜蝦皮分潤計畫

#蝦皮分潤計畫#蝦皮聯盟行銷#蝦皮副業

2025/09/06

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

嗨！歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台，並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈！「創作至上」是我們的核心價值，我們致力於透過平台功能與服務，賦予創作者更多的可能。 vocus 平台匯聚了

#vocus#徵才#社群行銷

2025/08/11

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

#vocus#徵才#社群行銷

2025/08/11

Pi Pi 怦呸

AI至上主義，好嗎？

全世界都在瘋AI，而且瘋狂的是台灣的AI 在這波浪潮中，台灣能支撐多久？

#人文#臺灣#AI

2024/06/21

Pi Pi 怦呸

AI至上主義，好嗎？

全世界都在瘋AI，而且瘋狂的是台灣的AI 在這波浪潮中，台灣能支撐多久？

#人文#臺灣#AI

2024/06/21

建佑律師＿NoMoreLaw的沙龍

台版ChatGPT繁體中文資料的法規調適方向

臺灣立法委員葛如鈞等人表示，臺灣AI訓練所需的繁體中文資料不足，可能影響文化發展。本文探討臺灣AI戰略的法規調適方向，以及臺版ChatGPT繁體中文資料的重要性和法律問題。特別提出建議，臺灣應制定《人工智慧基本法》草案，並調適《著作權法》，希望能否因此提升臺灣AI在國際的競爭力及話語權。

#著作權法#人工智慧#基本法

2024/05/19

建佑律師＿NoMoreLaw的沙龍

台版ChatGPT繁體中文資料的法規調適方向

#著作權法#人工智慧#基本法

2024/05/19

阿崴的沙龍

阿崴閱讀-台灣國家的進化與正常化

台灣前途由台灣人民共同決定好書分享：台灣國家的進化與正常化(第二版) 作者：陳隆志博士台灣新世紀文教基金會出版因楊醫師而獲贈的一本好書，也因為聽了要有一個人而知道這位麻豆考試第一名的陳隆志博士。可是在此之前，可從來沒有從這樣一個國際法的角度來認知與理解台灣應該有的定位何在，又

#台灣國家的進化與正常化#陳隆志#阿崴閱讀

2024/03/23

阿崴的沙龍

阿崴閱讀-台灣國家的進化與正常化

#台灣國家的進化與正常化#陳隆志#阿崴閱讀

2024/03/23

台灣文化鬥陣

閩南糾結：台灣文化的正名與新創

在國際場合，台灣被強制冠上中國的命名 Chinese Taipei；在島內，各種過去中華黨國對台灣人的錯誤命名與矮化，也為台派沿用至今，例如：『閩南語』、『本省人』、『中華文化』等等，都是一種試圖將台灣人合理化為中國人的話術。當這些名詞成了日常慣用，甚至成為學術正確，那意識形態的中國化也宣告完成。

2024/03/09

2024/03/09

南國的人｜Where are you from?

在外流浪最常被問及來自哪裡，在紐期間我最常收到的反應是點點頭、複誦島嶼的名字「Ah~Taiwan」，就像其他常聽到的國家一樣；也有人會露出了一切了然於心的表情，讓我不禁疑惑他所知道的台灣是什麼樣的台灣！

2024/01/22

N in NZ

南國的人｜Where are you from?

2024/01/22

小綠同學

2024台灣要如何發展AI？

目前，有50多個國家全球採用GDPR標準，但在亞洲僅有日本和韓國兩個國家採用。民眾黨在立法院提倡，台灣應該成為亞洲第三個採用...

#AI#吳欣盈

2024/01/08

小綠同學

2024台灣要如何發展AI？

目前，有50多個國家全球採用GDPR標準，但在亞洲僅有日本和韓國兩個國家採用。民眾黨在立法院提倡，台灣應該成為亞洲第三個採用...

#AI#吳欣盈

2024/01/08

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News