【自然語言處理 - spaCy】初探強大的工具庫spaCy，讓機器讀懂我們的語言吧

2023/07/13 更新2023/07/13 發佈閱讀 7 分鐘

上一篇章我們有提到「【AI幫幫忙】機器如何識別我們的特徵？關鍵的Named Entity Recognition（NER）技術」，而NER是NLP自然語言處理的一部分，而這一個篇章我們會以實作的形式來介紹自然語言處理中非常好用的一套工具「spaCy」，spaCy被廣泛用於各種NLP任務，包括自然語言理解、信息提取、文本分類和語言生成等。

會選擇這一套來進行使用主要是觀察到除了文檔完備豐富之外，使用起來也非常易用，對於非資料科學本科的使用者來說非常友善，而今天的範例除了介紹基本的NLP常見任務之外，最後也會使用Named Entity Recognition來對一段文章提取實體特徵，讓透過這些特徵更加了解一篇文章到底講了哪些關鍵。

下載模型

接著我們就直接進入正題吧！首先進行安裝套件，並載入模型，這邊我們載入的是中文模型「zh_core_web_trf」，而模型有以下四種:

zh_core_web_sm: 這是最小的中文語言模型，用於基本的語言處理任務(分詞和詞性標註)，它的下載大小比較小，速度比較快，但是在處理複雜的語言問題時可能表現較差。
zh_core_web_md: 這是中等大小的中文語言模型，比 zh_core_web_sm 包含更多的詞彙、語言特徵和上下文信息，可以用於更多的語言處理任務，它的下載大小比較大，速度比較慢，但是在處理複雜的語言問題時表現較好。
zh_core_web_lg: 這是最大的中文語言模型，比 zh_core_web_md 包含更多的語言特徵和上下文信息，可以用於更複雜和高級的語言處理任務，例如自然語言生成和語言理解，它的下載大小非常大，速度非常慢，但是在處理最複雜的語言問題時表現最佳。
zh_core_web_trf: 這是基於 Transformer 技術的中文語言模型，是最先進和最強大的中文語言模型之一。它比 zh_core_web_lg 包含更多的語言特徵和上下文信息，同時使用 Transformer 技術可以更好地處理長文本和上下文相關性，但是它的下載大小更大，速度更慢，需要更多的計算資源。

安裝套件

spaCy: NLP處理。
pandas: 進行表格呈現、矩陣計算…。

# 安裝spacy
%pip install spacy

# 安裝pandas
%pip install pandas# 下載Transfromer技術的中文語言模型
!python -m spacy download zh_core_web_trf

載入模型

模型會進行什麼處理？

當模型被應用於一段文本時，會通過預處理管道，而預處理管道就是所謂的Pipeline，過程大抵如下:

語句 --> Tokenizer --> 標記化 --> 停用詞去除 --> 詞形還原 --> 特徵提取

其中「Tokenizer」是管道中最先被執行的，也是最重要的一步，將文本切割成一個個的Token，也就是「詞」，後續才能進行詞性標注、停用詞移除、特徵擷取…等。

import spacy

# 載入模型
nlp_zh = spacy.load('zh_core_web_trf')# 對中文語句進行解析
doc = nlp_zh('台灣是一個位於亞洲東部的島嶼國家。')

Parser解析

以下我們將解析過後的Token印出，可以發現資訊非常的完整，除了詞的文字以外也將其特型進行解析。

其中POS tags可以參考這裡：https://universaldependencies.org/u/pos/

P.S 這邊以pandas來印出表格對於排版較為整齊

import pandas as pd

columns=['詞', '詞類', '詞性標注', '單詞依存關係', '是否為純字母組成', '是否為停用詞']dim = list(map(lambda x: [x.text, x.pos_, x.tag_, x.dep_, x.is_alpha, x.is_stop], doc))pd.DataFrame(dim, columns=columns)

圖片來源

分析相依關係

這邊我們會使用spacy套件中的displacy來呈現詞之間的關係。

Displacy是一個Python庫，用於在Jupyter Notebook或瀏覽器中顯示自然語言處理（NLP）模型的分析結果，它可以使用spaCy庫生成的分析結果，提供視覺化效果，以幫助開發人員更好地理解分析結果，通常與spaCy庫一起使用，可以用於許多NLP任務，例如詞性標注、依存關係分析、命名實體識別等。

透過視覺化可以觀察一下那些詞應該具有依賴性，哪些詞需要拆開，這裡可以稍微記錄一下，後續會說明如何調適，或者重新訓練。

from spacy import displacy

options = {
    "compact": True,
    "bg": "black",
    "color": "white",
    "font": "",
    "distance": 110
}# 台灣是一個位於亞洲東部的島嶼國家。
displacy.render(doc, style="dep", options=options)

圖片來源

Named Entity Recognition (NER)

我們藉由spacy來識別實體吧！

這邊識別出來的有「台灣」跟「亞洲」，分別代表的意義為「GPE: 地理政治」跟「LOC: 地點」。

至於有哪些實體呢？請參考「https://spacy.io/models/zh#zh_core_web_sm-labels」。

這邊有沒有發現，國家似乎沒有被識別出來，如何讓「國家」可以被識別出來呢？下一章將說明如何進行訓練，讓「國家」這個實體可以順利被識別。

# 台灣是一個位於亞洲東部的島嶼國家。
for e in doc.ents:
    print(e.text, e.label_)

displacy.render(doc, style="ent", jupyter=True)

圖片來源

今天的範例都在這裡「📦 scapy_0.ipynb」歡迎自行取用。

如何使用請參閱「【Google Colab系列】台股分析預備式： Colab平台與Python如何擦出火花？」。

結語

實際操作過一遍真的不困難，我們常常害怕一些艱澀難懂的名詞，導致駐足不前無法嘗試，這樣對於我們的學習是會大打折扣的，因此應該嘗試著動手做過一遍，了解整體流程之後，才能夠融會貫通，AI其實並不難，我們應該要懂得AI的原理，未來才有機會讓AI變成我們的強力助手。

總結來說，這次的NLP學到了整個處理流程大方向，透過`spaCy`解析成什麼樣的格式與內容，甚至分析詞與詞之間的關係，最後也學到了實體(Entity)，實體(Entity)是一個很重要的資訊，讓機器能夠識別並統計出可能的意圖，進行後續的處理流程，設計出更便利於人們的應用。

#AI

#AI創作

#技術組

阿Han的沙龍阿Han的軟體技術棧 💡AI

留言

阿Han的沙龍

153會員

328內容數

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

阿Han的沙龍的其他內容

2025/04/23

【🤖 cursor AI】如何使用MCP Server

我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器，使用起來大幅度的提昇開發效率，但仍有些問題點需要克服，比如說： LLM壓根不知道我們的數據庫長怎樣啊？怎麼分析結構呢？假設文檔又不足的狀況下更是艱辛，如果LLM

2025/04/23

【🤖 cursor AI】如何使用MCP Server

2025/03/12

【語音合成技術 - MeloTTS】如何建置API服務？

我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術，該套GPT-SoVITS也非常的出色，但效能有點不是非常理想，加上需要GPU才能達到較佳的體驗，如此一來成本就會有點高了，因此我們找了另外一套MeloTTS，這一套強調CPU推理非常的快！

2025/03/12

【語音合成技術 - MeloTTS】如何建置API服務？

2025/03/05

【語音合成技術 - GPT-SoVITS】解析API版本

我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務，但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術，因此我們可能會需要將API退回舊版，在這裡我們也整理了早期版本api與api_v2的一些差異，期望幫助到正在面臨選

2025/03/05

【語音合成技術 - GPT-SoVITS】解析API版本

#AI創作的其他內容

AI工具怎麼幫助我們學習程式－ChatGPT的實踐與範例

Ken Chen 的沙龍

AWS SageMaker 開箱體驗

西尼亞ming的沙龍

沒有機器學習經驗的我嘗試了 Amazon SageMaker JumpStart

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品，以十段寓言式殘篇，重新拼貼記憶、暴力與美學，並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇：帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略，嘗試解析極權底下不可言說之事，將如何成為可被觀看的公共發聲。

#釀電影#釀評論#藝術評論

2026/01/14

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

#釀電影#釀評論#藝術評論

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

柏林劇團在 2026 北藝嚴選，再次帶來由布萊希特改編的經典劇目《三便士歌劇》（The Threepenny Opera），導演巴里・柯斯基以舞台結構與舞台調度，重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核，藉由沉浸與疏離的辯證，解析此作如何再次照見觀眾自身的位置。

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲．蓋柏樂》的詮釋，從劇本歷史、聲響與舞臺設計，到演員的主體創作方法，探討此版本如何讓經典劇作在當代劇場語境下煥發新生，滿足現代觀眾的觀看慾望。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

貓貓學習筆記

TextToSpeech-神經網路如何理解文字

上篇我們簡單的了解了 TTS 想要達到的目標，但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚，這篇將針對訓練資料處理中的文字部分進行詳細說明，讓我們開始吧。

#AI#TextToSpeech#Pytorch

2024/05/27

貓貓學習筆記

TextToSpeech-神經網路如何理解文字

#AI#TextToSpeech#Pytorch

2024/05/27

Marcos的方格子

大型語言模型常用的提詞框架 | Coursera 課程回顧(下)

大型語言模型（Large Language Model，LLM）是一項人工智慧技術，其目的在於理解和生成人類語言，可將其想像成一種高階的「文字預測機器」，然而，它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外，今天我們會介紹使用 LLM 的框架。

#PromptPattern#LLM#ChatGPT

2024/03/09

Marcos的方格子

大型語言模型常用的提詞框架 | Coursera 課程回顧(下)

#PromptPattern#LLM#ChatGPT

2024/03/09

Everything ✨

AI 模型的進化｜從大型語言模型LLM 到多模態模型LMM

大型語言模型(LLM)是基於深度學習的自然語言處理模型，而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言，LMM 能夠處理跨模態的內容，並整合多種資料的能力，有望成為未來趨勢。

#ChatGPT#AI#人工智慧

2024/02/24

Everything ✨

AI 模型的進化｜從大型語言模型LLM 到多模態模型LMM

#ChatGPT#AI#人工智慧

2024/02/24

王啟樺的沙龍

【大語言模型LLMs：為何「大」字至關重要？】

大語言模型（LLMs）對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。這類模型，如GPT-4，透過其龐大的數據集和複雜的參數設置，提供了前所未有的語言理解和生成能力。那麼，究竟是什麼讓這些模型「大」得如此不同呢？

#大語言模型#GPT4#ChatGPT

2024/01/19

王啟樺的沙龍

【大語言模型LLMs：為何「大」字至關重要？】

#大語言模型#GPT4#ChatGPT

2024/01/19

王啟樺的沙龍

【從規則到革新：3大進步展示了大語言模型在自然語言處理上的威力】

對於熱衷於語言科技的你，大語言模型（LLMs）在自然語言處理（NLP）領域的發展無疑是一個革命性的進展。從傳統的規則系統到基於深度學習的方法， LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。這不僅是技術上的飛躍，更是開啟了新的應用和可能性。下面將介紹這一變革帶來的三大

#大語言模型#ChatGPT#深度學習

2024/01/15

王啟樺的沙龍

【從規則到革新：3大進步展示了大語言模型在自然語言處理上的威力】

#大語言模型#ChatGPT#深度學習

2024/01/15

Karen的沙龍

將RAG與Semantic Search融入LLM：提升準確性與效率

前言前幾篇分享了 IBM Watsonx.ai 平台，以及在平台上使用 LLM 完成客戶體驗分析、與LLM串連處理較複雜的問題。在這一篇中，我們想來嘗試使用檢索增強生成（RAG）的技術，RAG 通過整合外部數據來增強基礎模型的回答能力，這不僅能解決模型訓練數據的局限性問題，還可以提供更精準和相關

#LLM#RAG#huggingface

2023/12/18

Karen的沙龍

將RAG與Semantic Search融入LLM：提升準確性與效率

#LLM#RAG#huggingface

2023/12/18

Karen的沙龍

機器學習實用技巧：用多進程加速你的特徵工程

在數據科學和機器學習中，特徵工程是提高模型性能的關鍵步驟之一，通過創建新特徵或轉換現有特徵，我們可以更好地捕捉數據中的信息，提高模型的預測能力。然而，當處理大數據集時，特徵工程可能變得耗時，而且若是在研發階段，特徵其實是需要快速迭代去產生並且做後續的實驗，這也是近期遇到的問題，因此想在這篇文章實作多

#數據#學習#資料科學

2023/10/30