詞形還原 (Lemmatization)

更新 發佈閱讀 5 分鐘

「詞形還原 (Lemmatization)」是文本前處理 (Text Preprocessing) 的另一個重要步驟,它與詞幹提取 (Stemming) 的目標相似,都是將詞語還原為其基本形式。然而,詞形還原更加精確,它會考慮詞語的詞性 (Part of Speech, POS) 和語境,將詞語轉換為其詞根形式,也稱為詞元 (lemma)字典形式。詞形還原的結果總是一個語法上正確的詞語

你可以將詞形還原想像成一個更智能、更精確的歸類方法。它不僅僅是簡單地移除詞綴,而是理解詞語在句子中的作用,並將其映射回其原來的形式。

詞形還原的工作方式:

詞形還原通常依賴於詞彙知識庫,例如 WordNet、詞形詞典等,這些知識庫包含了詞語的不同形式及其對應的詞根。詞形還原算法會查找詞語的詞性,然後根據詞性和詞形規則,將其還原為詞元。

例如,對於英文,詞形還原會考慮詞語是名詞、動詞、形容詞還是副詞,然後進行不同的還原操作:

  • 動詞: 將不同時態、語態、人稱的動詞還原為其原型 (infinitive form)。例如:
    • "running" -> "run" "ran" -> "run" "runs" -> "run" "is running" -> "be running" (有時會還原到更基本的形式 "be run")
  • 名詞: 將複數名詞還原為單數形式。例如:
    • "dogs" -> "dog" "boxes" -> "box" "children" -> "child"
  • 形容詞: 將比較級和最高級形容詞還原為基本形式。例如:
    • "better" -> "good" "best" -> "good" "happier" -> "happy"
  • 副詞: 有些副詞也會被還原。例如:
    • "happily" -> "happy"

詞形還原的例子 (英文):

  • running -> run
  • ran -> run
  • runs -> run
  • walked -> walk
  • walking -> walk
  • walks -> walk
  • happiness -> happiness (通常名詞會還原到其基本形式)
  • happily -> happy (需要考慮詞性是副詞)
  • cats -> cat
  • foxes -> fox
  • better -> good
  • best -> good

詞形還原的優點:

  • 更準確的詞語歸類: 由於考慮了詞性和語境,詞形還原能更準確地將不同的詞形歸為同一個詞元。
  • 產生語法上正確的詞根: 詞形還原的結果總是詞典中存在的有效詞語,這有助於後續的語義分析。

詞形還原的缺點:

  • 計算成本更高: 相較於基於規則的詞幹提取,詞形還原通常需要查詢詞彙知識庫和進行更複雜的分析,因此計算成本更高。
  • 需要詞性標註: 有些詞形還原算法需要知道詞語的詞性才能進行正確的還原,這就需要在詞形還原之前進行詞性標註。

詞形還原的常用工具和庫:

許多 NLP 工具庫都提供了詞形還原的功能,例如:

  • NLTK (Natural Language Toolkit): 提供了 WordNet Lemmatizer,可以使用 WordNet 詞彙庫進行詞形還原。
  • spaCy: 提供了高效的詞形還原功能,並且集成了詞性標註器。

詞形還原 vs. 詞幹提取 (Lemmatization vs. Stemming):

正如之前提到的,詞形還原和詞幹提取都是將詞語簡化的方法,但主要的區別在於:

  • 詞幹提取 是一種更快速、更簡單的基於規則的方法,可能產生非實際詞語的詞幹。
  • 詞形還原 是一種更精確、更複雜的方法,它考慮詞性和語境,並始終產生語法上正確的詞根(詞元)。

在實際應用中,選擇使用詞形還原還是詞幹提取取決於具體的任務需求。如果需要更精確的語義分析,詞形還原通常是更好的選擇。如果對性能要求更高,且可以容忍一定程度的不準確性,詞幹提取可能更適合。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
21會員
495內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/05/25
「詞幹提取 (Stemming)」是文本前處理 (Text Preprocessing) 的一個步驟,旨在將詞語還原為它們的基本形式或詞幹 (stem)。這個過程通常通過移除詞語的詞綴(例如,後綴、前綴)來實現,目的是將具有相同詞根的不同詞形歸為一類,從而減少詞語的變異性,並提高後續 NLP 模型處
2025/05/25
「詞幹提取 (Stemming)」是文本前處理 (Text Preprocessing) 的一個步驟,旨在將詞語還原為它們的基本形式或詞幹 (stem)。這個過程通常通過移除詞語的詞綴(例如,後綴、前綴)來實現,目的是將具有相同詞根的不同詞形歸為一類,從而減少詞語的變異性,並提高後續 NLP 模型處
2025/05/25
「停用詞移除 (Stop Word Removal)」是文本前處理 (Text Preprocessing) 的一個常見步驟,指的是將文本中一些常見的、但通常被認為對文本的語義理解沒有太大貢獻的詞語(即「停用詞」)從文本中移除的過程。 什麼是停用詞? 停用詞通常是指在文本中頻繁出現,但本身並不包
2025/05/25
「停用詞移除 (Stop Word Removal)」是文本前處理 (Text Preprocessing) 的一個常見步驟,指的是將文本中一些常見的、但通常被認為對文本的語義理解沒有太大貢獻的詞語(即「停用詞」)從文本中移除的過程。 什麼是停用詞? 停用詞通常是指在文本中頻繁出現,但本身並不包
2025/05/25
「斷詞 (Tokenization)」是文本前處理 (Text Preprocessing) 中的一個關鍵步驟,指的是將一段文本(例如一個句子、一個段落或一篇文章)分割成更小的單元,這些單元通常被稱為「詞語 (tokens)」。這些 tokens 是後續 NLP 模型進行分析和處理的基本單位。 你
2025/05/25
「斷詞 (Tokenization)」是文本前處理 (Text Preprocessing) 中的一個關鍵步驟,指的是將一段文本(例如一個句子、一個段落或一篇文章)分割成更小的單元,這些單元通常被稱為「詞語 (tokens)」。這些 tokens 是後續 NLP 模型進行分析和處理的基本單位。 你
看更多
你可能也想看
Thumbnail
蝦皮分潤計畫讓我在分享旅遊文章時,也能透過推薦好物累積被動收入,貼補旅行基金。這篇文章,除了介紹計畫的操作亮點與心得,也分享我最常應用的案例:「旅行必備小物 TOP5」,包含行李鎖、免洗內衣褲、分裝瓶、折疊衣架與真空壓縮袋,幫助出國打包更輕鬆。想同時記錄旅行、分享好物又創造額外收入的你,千萬別錯過!
Thumbnail
蝦皮分潤計畫讓我在分享旅遊文章時,也能透過推薦好物累積被動收入,貼補旅行基金。這篇文章,除了介紹計畫的操作亮點與心得,也分享我最常應用的案例:「旅行必備小物 TOP5」,包含行李鎖、免洗內衣褲、分裝瓶、折疊衣架與真空壓縮袋,幫助出國打包更輕鬆。想同時記錄旅行、分享好物又創造額外收入的你,千萬別錯過!
Thumbnail
想增加被動收入?加入蝦皮分潤計畫是輕鬆上手的好方法!本文提供完整教學,包含申請流程、賺取分潤技巧,以及實際使用心得分享,助你輕鬆獲得額外收入。
Thumbnail
想增加被動收入?加入蝦皮分潤計畫是輕鬆上手的好方法!本文提供完整教學,包含申請流程、賺取分潤技巧,以及實際使用心得分享,助你輕鬆獲得額外收入。
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
給定一個字串陣列,請把它們所共有的字元伴隨著出現次數輸出。這篇文章介紹如何使用字典統計出現次數,和字典取交集的方法來解決此問題。並提供了複雜度分析和關鍵知識點。
Thumbnail
給定一個字串陣列,請把它們所共有的字元伴隨著出現次數輸出。這篇文章介紹如何使用字典統計出現次數,和字典取交集的方法來解決此問題。並提供了複雜度分析和關鍵知識點。
Thumbnail
1.0 從函數到函算語法 1.1 句子成份 本書關注的是句子成份的分析。 如前述,詞類和句子成份是兩個很不一樣的概念。 詞類的劃分屬歸類性的描述。我們先有一個給定的詞彙,然後劃分若干詞類,比如名詞﹑動詞﹑形容詞等,再進而對詞彙中的每一個詞進行分類,即說某詞屬名詞﹑某詞屬動詞﹑某詞可以是名
Thumbnail
1.0 從函數到函算語法 1.1 句子成份 本書關注的是句子成份的分析。 如前述,詞類和句子成份是兩個很不一樣的概念。 詞類的劃分屬歸類性的描述。我們先有一個給定的詞彙,然後劃分若干詞類,比如名詞﹑動詞﹑形容詞等,再進而對詞彙中的每一個詞進行分類,即說某詞屬名詞﹑某詞屬動詞﹑某詞可以是名
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
Thumbnail
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
這是文字處理基礎函式的第四篇文章,今天要來介紹 REPLACE 函式! REPLACE 可以取代掉儲存格內的文字,今天會分享一下它語法怎麼寫、也有兩個實際應用的案例。一起來看看! REPLACE 語法 REPLACE 的語法長了一點點,有四個參數要設定: =REPLACE(要取代
Thumbnail
這是文字處理基礎函式的第四篇文章,今天要來介紹 REPLACE 函式! REPLACE 可以取代掉儲存格內的文字,今天會分享一下它語法怎麼寫、也有兩個實際應用的案例。一起來看看! REPLACE 語法 REPLACE 的語法長了一點點,有四個參數要設定: =REPLACE(要取代
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News