詞形還原 (Lemmatization)

更新 發佈閱讀 5 分鐘

「詞形還原 (Lemmatization)」是文本前處理 (Text Preprocessing) 的另一個重要步驟,它與詞幹提取 (Stemming) 的目標相似,都是將詞語還原為其基本形式。然而,詞形還原更加精確,它會考慮詞語的詞性 (Part of Speech, POS) 和語境,將詞語轉換為其詞根形式,也稱為詞元 (lemma)字典形式。詞形還原的結果總是一個語法上正確的詞語

你可以將詞形還原想像成一個更智能、更精確的歸類方法。它不僅僅是簡單地移除詞綴,而是理解詞語在句子中的作用,並將其映射回其原來的形式。

詞形還原的工作方式:

詞形還原通常依賴於詞彙知識庫,例如 WordNet、詞形詞典等,這些知識庫包含了詞語的不同形式及其對應的詞根。詞形還原算法會查找詞語的詞性,然後根據詞性和詞形規則,將其還原為詞元。

例如,對於英文,詞形還原會考慮詞語是名詞、動詞、形容詞還是副詞,然後進行不同的還原操作:

  • 動詞: 將不同時態、語態、人稱的動詞還原為其原型 (infinitive form)。例如:
    • "running" -> "run" "ran" -> "run" "runs" -> "run" "is running" -> "be running" (有時會還原到更基本的形式 "be run")
  • 名詞: 將複數名詞還原為單數形式。例如:
    • "dogs" -> "dog" "boxes" -> "box" "children" -> "child"
  • 形容詞: 將比較級和最高級形容詞還原為基本形式。例如:
    • "better" -> "good" "best" -> "good" "happier" -> "happy"
  • 副詞: 有些副詞也會被還原。例如:
    • "happily" -> "happy"

詞形還原的例子 (英文):

  • running -> run
  • ran -> run
  • runs -> run
  • walked -> walk
  • walking -> walk
  • walks -> walk
  • happiness -> happiness (通常名詞會還原到其基本形式)
  • happily -> happy (需要考慮詞性是副詞)
  • cats -> cat
  • foxes -> fox
  • better -> good
  • best -> good

詞形還原的優點:

  • 更準確的詞語歸類: 由於考慮了詞性和語境,詞形還原能更準確地將不同的詞形歸為同一個詞元。
  • 產生語法上正確的詞根: 詞形還原的結果總是詞典中存在的有效詞語,這有助於後續的語義分析。

詞形還原的缺點:

  • 計算成本更高: 相較於基於規則的詞幹提取,詞形還原通常需要查詢詞彙知識庫和進行更複雜的分析,因此計算成本更高。
  • 需要詞性標註: 有些詞形還原算法需要知道詞語的詞性才能進行正確的還原,這就需要在詞形還原之前進行詞性標註。

詞形還原的常用工具和庫:

許多 NLP 工具庫都提供了詞形還原的功能,例如:

  • NLTK (Natural Language Toolkit): 提供了 WordNet Lemmatizer,可以使用 WordNet 詞彙庫進行詞形還原。
  • spaCy: 提供了高效的詞形還原功能,並且集成了詞性標註器。

詞形還原 vs. 詞幹提取 (Lemmatization vs. Stemming):

正如之前提到的,詞形還原和詞幹提取都是將詞語簡化的方法,但主要的區別在於:

  • 詞幹提取 是一種更快速、更簡單的基於規則的方法,可能產生非實際詞語的詞幹。
  • 詞形還原 是一種更精確、更複雜的方法,它考慮詞性和語境,並始終產生語法上正確的詞根(詞元)。

在實際應用中,選擇使用詞形還原還是詞幹提取取決於具體的任務需求。如果需要更精確的語義分析,詞形還原通常是更好的選擇。如果對性能要求更高,且可以容忍一定程度的不準確性,詞幹提取可能更適合。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
46會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/05/25
「詞幹提取 (Stemming)」是文本前處理 (Text Preprocessing) 的一個步驟,旨在將詞語還原為它們的基本形式或詞幹 (stem)。這個過程通常通過移除詞語的詞綴(例如,後綴、前綴)來實現,目的是將具有相同詞根的不同詞形歸為一類,從而減少詞語的變異性,並提高後續 NLP 模型處
2025/05/25
「詞幹提取 (Stemming)」是文本前處理 (Text Preprocessing) 的一個步驟,旨在將詞語還原為它們的基本形式或詞幹 (stem)。這個過程通常通過移除詞語的詞綴(例如,後綴、前綴)來實現,目的是將具有相同詞根的不同詞形歸為一類,從而減少詞語的變異性,並提高後續 NLP 模型處
2025/05/25
「停用詞移除 (Stop Word Removal)」是文本前處理 (Text Preprocessing) 的一個常見步驟,指的是將文本中一些常見的、但通常被認為對文本的語義理解沒有太大貢獻的詞語(即「停用詞」)從文本中移除的過程。 什麼是停用詞? 停用詞通常是指在文本中頻繁出現,但本身並不包
2025/05/25
「停用詞移除 (Stop Word Removal)」是文本前處理 (Text Preprocessing) 的一個常見步驟,指的是將文本中一些常見的、但通常被認為對文本的語義理解沒有太大貢獻的詞語(即「停用詞」)從文本中移除的過程。 什麼是停用詞? 停用詞通常是指在文本中頻繁出現,但本身並不包
2025/05/25
「斷詞 (Tokenization)」是文本前處理 (Text Preprocessing) 中的一個關鍵步驟,指的是將一段文本(例如一個句子、一個段落或一篇文章)分割成更小的單元,這些單元通常被稱為「詞語 (tokens)」。這些 tokens 是後續 NLP 模型進行分析和處理的基本單位。 你
2025/05/25
「斷詞 (Tokenization)」是文本前處理 (Text Preprocessing) 中的一個關鍵步驟,指的是將一段文本(例如一個句子、一個段落或一篇文章)分割成更小的單元,這些單元通常被稱為「詞語 (tokens)」。這些 tokens 是後續 NLP 模型進行分析和處理的基本單位。 你
看更多
你可能也想看
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
給定一個字串陣列,請把它們所共有的字元伴隨著出現次數輸出。這篇文章介紹如何使用字典統計出現次數,和字典取交集的方法來解決此問題。並提供了複雜度分析和關鍵知識點。
Thumbnail
給定一個字串陣列,請把它們所共有的字元伴隨著出現次數輸出。這篇文章介紹如何使用字典統計出現次數,和字典取交集的方法來解決此問題。並提供了複雜度分析和關鍵知識點。
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
1.0 從函數到函算語法 1.1 句子成份 本書關注的是句子成份的分析。 如前述,詞類和句子成份是兩個很不一樣的概念。 詞類的劃分屬歸類性的描述。我們先有一個給定的詞彙,然後劃分若干詞類,比如名詞﹑動詞﹑形容詞等,再進而對詞彙中的每一個詞進行分類,即說某詞屬名詞﹑某詞屬動詞﹑某詞可以是名
Thumbnail
1.0 從函數到函算語法 1.1 句子成份 本書關注的是句子成份的分析。 如前述,詞類和句子成份是兩個很不一樣的概念。 詞類的劃分屬歸類性的描述。我們先有一個給定的詞彙,然後劃分若干詞類,比如名詞﹑動詞﹑形容詞等,再進而對詞彙中的每一個詞進行分類,即說某詞屬名詞﹑某詞屬動詞﹑某詞可以是名
Thumbnail
這是文字處理基礎函式的第四篇文章,今天要來介紹 REPLACE 函式! REPLACE 可以取代掉儲存格內的文字,今天會分享一下它語法怎麼寫、也有兩個實際應用的案例。一起來看看! REPLACE 語法 REPLACE 的語法長了一點點,有四個參數要設定: =REPLACE(要取代
Thumbnail
這是文字處理基礎函式的第四篇文章,今天要來介紹 REPLACE 函式! REPLACE 可以取代掉儲存格內的文字,今天會分享一下它語法怎麼寫、也有兩個實際應用的案例。一起來看看! REPLACE 語法 REPLACE 的語法長了一點點,有四個參數要設定: =REPLACE(要取代
Thumbnail
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
Thumbnail
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News