詞形還原 (Lemmatization)

2025/08/08 更新2025/05/25 發佈閱讀 5 分鐘

「詞形還原 (Lemmatization)」是文本前處理 (Text Preprocessing) 的另一個重要步驟，它與詞幹提取 (Stemming) 的目標相似，都是將詞語還原為其基本形式。然而，詞形還原更加精確，它會考慮詞語的詞性 (Part of Speech, POS) 和語境，將詞語轉換為其詞根形式，也稱為詞元 (lemma) 或字典形式。詞形還原的結果總是一個語法上正確的詞語。

你可以將詞形還原想像成一個更智能、更精確的歸類方法。它不僅僅是簡單地移除詞綴，而是理解詞語在句子中的作用，並將其映射回其原來的形式。

詞形還原的工作方式：

詞形還原通常依賴於詞彙知識庫，例如 WordNet、詞形詞典等，這些知識庫包含了詞語的不同形式及其對應的詞根。詞形還原算法會查找詞語的詞性，然後根據詞性和詞形規則，將其還原為詞元。

例如，對於英文，詞形還原會考慮詞語是名詞、動詞、形容詞還是副詞，然後進行不同的還原操作：

動詞： 將不同時態、語態、人稱的動詞還原為其原型 (infinitive form)。例如：
- "running" -> "run" "ran" -> "run" "runs" -> "run" "is running" -> "be running" (有時會還原到更基本的形式 "be run")
名詞： 將複數名詞還原為單數形式。例如：
- "dogs" -> "dog" "boxes" -> "box" "children" -> "child"
形容詞： 將比較級和最高級形容詞還原為基本形式。例如：
- "better" -> "good" "best" -> "good" "happier" -> "happy"
副詞： 有些副詞也會被還原。例如：
- "happily" -> "happy"

詞形還原的例子 (英文)：

running -> run
ran -> run
runs -> run
walked -> walk
walking -> walk
walks -> walk
happiness -> happiness (通常名詞會還原到其基本形式)
happily -> happy (需要考慮詞性是副詞)
cats -> cat
foxes -> fox
better -> good
best -> good

詞形還原的優點：

更準確的詞語歸類： 由於考慮了詞性和語境，詞形還原能更準確地將不同的詞形歸為同一個詞元。
產生語法上正確的詞根： 詞形還原的結果總是詞典中存在的有效詞語，這有助於後續的語義分析。

詞形還原的缺點：

計算成本更高： 相較於基於規則的詞幹提取，詞形還原通常需要查詢詞彙知識庫和進行更複雜的分析，因此計算成本更高。
需要詞性標註： 有些詞形還原算法需要知道詞語的詞性才能進行正確的還原，這就需要在詞形還原之前進行詞性標註。

詞形還原的常用工具和庫：

許多 NLP 工具庫都提供了詞形還原的功能，例如：

NLTK (Natural Language Toolkit): 提供了 WordNet Lemmatizer，可以使用 WordNet 詞彙庫進行詞形還原。
spaCy: 提供了高效的詞形還原功能，並且集成了詞性標註器。

詞形還原 vs. 詞幹提取 (Lemmatization vs. Stemming):

正如之前提到的，詞形還原和詞幹提取都是將詞語簡化的方法，但主要的區別在於：

詞幹提取 是一種更快速、更簡單的基於規則的方法，可能產生非實際詞語的詞幹。
詞形還原 是一種更精確、更複雜的方法，它考慮詞性和語境，並始終產生語法上正確的詞根（詞元）。

在實際應用中，選擇使用詞形還原還是詞幹提取取決於具體的任務需求。如果需要更精確的語義分析，詞形還原通常是更好的選擇。如果對性能要求更高，且可以容忍一定程度的不準確性，詞幹提取可能更適合。

含 AI 應用內容

#自然語言處理技術與應用

郝信華 iPAS AI應用規劃師學習筆記自然語言處理與應用

留言

郝信華 iPAS AI應用規劃師學習筆記

46會員

572內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他：富邦美術館志工

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/05/25

詞幹提取 (Stemming)

「詞幹提取 (Stemming)」是文本前處理 (Text Preprocessing) 的一個步驟，旨在將詞語還原為它們的基本形式或詞幹 (stem)。這個過程通常通過移除詞語的詞綴（例如，後綴、前綴）來實現，目的是將具有相同詞根的不同詞形歸為一類，從而減少詞語的變異性，並提高後續 NLP 模型處

2025/05/25

詞幹提取 (Stemming)

2025/05/25

停用詞移除 (Stop Word Removal)

「停用詞移除 (Stop Word Removal)」是文本前處理 (Text Preprocessing) 的一個常見步驟，指的是將文本中一些常見的、但通常被認為對文本的語義理解沒有太大貢獻的詞語（即「停用詞」）從文本中移除的過程。什麼是停用詞？停用詞通常是指在文本中頻繁出現，但本身並不包

2025/05/25

停用詞移除 (Stop Word Removal)

2025/05/25

斷詞 (Tokenization)

「斷詞 (Tokenization)」是文本前處理 (Text Preprocessing) 中的一個關鍵步驟，指的是將一段文本（例如一個句子、一個段落或一篇文章）分割成更小的單元，這些單元通常被稱為「詞語 (tokens)」。這些 tokens 是後續 NLP 模型進行分析和處理的基本單位。你

2025/05/25

斷詞 (Tokenization)

看更多

你可能也想看

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

見諸參與鄧伯宸口述，鄧湘庭於〈那個大霧的時代〉記述父親回憶，鄧伯宸因故遭受牽連，而案件核心的三人，在鄧伯宸記憶裡：「成立了成大共產黨，他們製作了五星徽章，印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單，以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿，另外還有手槍子彈十發。」

#釀電影#釀藝評#藝術評論

2026/05/07

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

#釀電影#釀藝評#藝術評論

2026/05/07

貓貓學習筆記

TextToSpeech-神經網路如何理解文字

上篇我們簡單的了解了 TTS 想要達到的目標，但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚，這篇將針對訓練資料處理中的文字部分進行詳細說明，讓我們開始吧。

#AI#TextToSpeech#Pytorch

2024/05/27

貓貓學習筆記

TextToSpeech-神經網路如何理解文字

#AI#TextToSpeech#Pytorch

2024/05/27

小松鼠的演算法樂園

物以類聚尋找共同的字元_字典應用_Leetcode #1002

給定一個字串陣列，請把它們所共有的字元伴隨著出現次數輸出。這篇文章介紹如何使用字典統計出現次數，和字典取交集的方法來解決此問題。並提供了複雜度分析和關鍵知識點。

#python#leetcode#algorithm

2024/06/05

小松鼠的演算法樂園

物以類聚尋找共同的字元_字典應用_Leetcode #1002

#python#leetcode#algorithm

2024/06/05

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

5 月，方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間，每週都會有新的任務地圖與陪跑計畫，從最簡單的帳號使用、沙龍建立，到帶著你從一句話、一張照片開始，一步一步找到屬於自己的創作節奏。不需要長篇大論，不需要完美的文筆，只需要帶上你今天的日常，就可以出發。征服創作島，抱回靈感與大獎！

#創作#vocus#方格創作島

2026/04/23

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

#創作#vocus#方格創作島

2026/04/23

sen的沙龍

上古漢語的邏輯結構 021

1.0 從函數到函算語法 1.1 句子成份本書關注的是句子成份的分析。如前述，詞類和句子成份是兩個很不一樣的概念。詞類的劃分屬歸類性的描述。我們先有一個給定的詞彙，然後劃分若干詞類，比如名詞﹑動詞﹑形容詞等，再進而對詞彙中的每一個詞進行分類，即說某詞屬名詞﹑某詞屬動詞﹑某詞可以是名

2024/05/29

2024/05/29

這是文字處理基礎函式的第四篇文章，今天要來介紹 REPLACE 函式！ REPLACE 可以取代掉儲存格內的文字，今天會分享一下它語法怎麼寫、也有兩個實際應用的案例。一起來看看！ REPLACE 語法 REPLACE 的語法長了一點點，有四個參數要設定： =REPLACE(要取代

#Google試算表#函式用法#REPLACE

2024/05/25

喜特先生官方沙龍

文字處理基礎函式（四）：REPLACE

#Google試算表#函式用法#REPLACE

2024/05/25

貓貓學習筆記

TextToSpeech-Word Embedding

上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示，且這個詞向量能夠包含一定程度上的語義訊息，今天就讓我們探討 Word Embedding 到底是如何訓練成的。

#AI#TextToSpeech#Pytorch

2024/05/28

貓貓學習筆記

TextToSpeech-Word Embedding

#AI#TextToSpeech#Pytorch

2024/05/28

貓貓學習筆記

TextToSpeech-語音重建

　　我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建，其中輸入前處理的部分上兩篇已經處理完，在進入預測音訊特徵前，讓我們先來理解最後的語音重建部分。

2024/05/29

2024/05/29

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

當時間變少之後，看戲反而變得更加重要——這是在成為母親之後，我第一次誠實地面對這一件事：我沒有那麼多的晚上，可以任性地留給自己了。看戲不再只是「今天有沒有空」，而是牽動整個週末的結構，誰應該照顧孩子，我該在什麼時間回到家，隔天還有沒有精神帶小孩⋯⋯於是，我不得不學會一件以前並不擅長的事：挑選。

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

Amily的沙龍

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28