詞形還原 (Lemmatization)

更新於 發佈於 閱讀時間約 4 分鐘

詞形還原(Lemmatization)是自然語言處理(NLP)中的一個文本正規化的過程。它的目的是一個詞彙的不同形態(屈折形式)還原到其詞典中基本的形式,稱為詞元(引理)詞幹(基本形式)

詞形還原的目的:

  • 統一詞彙表示:不同的詞形可能有相同的基本意義。例如,「running」、「ran」和「runs」都來自於字根「run」。詞形還原將它們統一表示為“run”,有助於後續的文本分析,例如統計詞頻時,可以將這些不同的形式視為同一個字。
  • 簡化文本:透過將詞彙還原到其基本形式,可以減少文本中詞彙的變異性,使得模型更容易學習詞彙的本質意義。
  • 提高模型效能:在許多NLP任務中,例如資訊搜尋、文字分類等,使用詞形還原後的文字通常可以提高模型的效能。

詞形還原與詞幹提取 (Stemming) 的區別:

詞形和詞幹都將簡化詞彙的過程,但它們之間有重要的區別:

  • 詞形還原(詞形還原):
    • 目的是得到一個具有實際意義的詞元(引理),這個詞元是字典中存在的詞。
    • 需要考慮詞彙的詞性(詞性)和語境(上下文),才能正確還原到其基本形式。
    • 例如: 「運行」->「運行」(動詞) 「更好」->「好」(形容詞) 「去」 -> 「去」 (動詞) 「老鼠」->「老鼠」(名詞)
  • 詞幹擷取 (Stemming):
    • 打算透過簡單的詞綴增加規則,得到一個詞幹(詞幹),這個詞幹不一定是搜尋中存在的詞,有時甚至沒有實際意義。
    • 過程通常更快,但結果可能不太準確。
    • 例如(使用中文波特詞幹擷取演算法): “跑步” -> “跑步” 「更好」->「更好」(沒有還原到「好」) 「去」->「去」(沒有還原到「去」) 「老鼠」 -> 「老鼠」 (沒有還原到「老鼠」)

中文詞形還原:

與漢語等屈折語不同,現代漢語的詞彙在語法上的形態變化相對較少,主要依靠詞序和虛詞來表達語法關係。 因此,傳統意義上的「詞形還原」在漢語中並不像在漢語中那麼常見和重要。

然而,在中文 NLP 中,仍存在一些相似詞形還原的概念和技術,其目標是統一到其基本形式:

  • 繁簡轉換(繁體中文單字轉換):將繁體中文單字轉換為簡體中文單字。
  • 異體字統一(Unification of Variant Characters):將不同的寫法統一到標準的形式。
  • 近義詞歸一化(同義詞標準化):將意思相近的術語統一表示,例如將多種表達「喜歡」的術語歸一化為一個標準形式。
  • 數字和日期的標準化(Normalization of Numbers and Dates):將不同的數字和日期表示方式轉換為統一的格式。

雖然中文不像英文那樣豐富的詞形變化,但以上這些操作在某些中文 NLP 任務中仍然很有用,可以幫助提高文本處理的一致性和準確性。

總結:

詞形還原是一個將詞彙的不同形態還原為基本形式的NLP過程。它與詞幹提取不同,詞形還原的目的是得到一個具有實際意義的詞元,並且需要考慮詞彙的詞性和語境。雖然中文的詞形變化沒有英文那麼豐富,但在中文NLP中仍然存在一些類似的其正規化處理,以提高文本分析的效率和準確性。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
4會員
222內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師
2025/05/27
斷詞(標記化)是自然處理(NLP)中的一個基本步驟,指的是一段語言文字(例如句子、段落或整個文件),切掉較小的單元,稱為單字(標記)的過程。這些術語通常是句子中的單字、標記點符號、數字或其他有意義的符號。 斷詞的重要性: 機器理解的基礎:電腦很難直接理解人類的原始文本。斷詞將文本分割成語言模型可
2025/05/27
斷詞(標記化)是自然處理(NLP)中的一個基本步驟,指的是一段語言文字(例如句子、段落或整個文件),切掉較小的單元,稱為單字(標記)的過程。這些術語通常是句子中的單字、標記點符號、數字或其他有意義的符號。 斷詞的重要性: 機器理解的基礎:電腦很難直接理解人類的原始文本。斷詞將文本分割成語言模型可
2025/05/25
「詞幹提取 (Stemming)」是文本前處理 (Text Preprocessing) 的一個步驟,旨在將詞語還原為它們的基本形式或詞幹 (stem)。這個過程通常通過移除詞語的詞綴(例如,後綴、前綴)來實現,目的是將具有相同詞根的不同詞形歸為一類,從而減少詞語的變異性,並提高後續 NLP 模型處
2025/05/25
「詞幹提取 (Stemming)」是文本前處理 (Text Preprocessing) 的一個步驟,旨在將詞語還原為它們的基本形式或詞幹 (stem)。這個過程通常通過移除詞語的詞綴(例如,後綴、前綴)來實現,目的是將具有相同詞根的不同詞形歸為一類,從而減少詞語的變異性,並提高後續 NLP 模型處
2025/05/25
「停用詞移除 (Stop Word Removal)」是文本前處理 (Text Preprocessing) 的一個常見步驟,指的是將文本中一些常見的、但通常被認為對文本的語義理解沒有太大貢獻的詞語(即「停用詞」)從文本中移除的過程。 什麼是停用詞? 停用詞通常是指在文本中頻繁出現,但本身並不包
2025/05/25
「停用詞移除 (Stop Word Removal)」是文本前處理 (Text Preprocessing) 的一個常見步驟,指的是將文本中一些常見的、但通常被認為對文本的語義理解沒有太大貢獻的詞語(即「停用詞」)從文本中移除的過程。 什麼是停用詞? 停用詞通常是指在文本中頻繁出現,但本身並不包
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
到此,我們開始拆解了觀察這件事:一方面是現象、一方面是概念,同時也稍微發現了觀察的方法也有影響。 本處處理的問題是如何找尋主題
Thumbnail
到此,我們開始拆解了觀察這件事:一方面是現象、一方面是概念,同時也稍微發現了觀察的方法也有影響。 本處處理的問題是如何找尋主題
Thumbnail
理解“是”和“周遍是”的概念至關重要。掌握這些邏輯關係能幫助我們更清晰地思考和分析問題,避免混淆和誤解。這些概念能幫助我們更深入地研究佛法名相(名詞),改變內心認知,達到心靈的平靜和清晰。
Thumbnail
理解“是”和“周遍是”的概念至關重要。掌握這些邏輯關係能幫助我們更清晰地思考和分析問題,避免混淆和誤解。這些概念能幫助我們更深入地研究佛法名相(名詞),改變內心認知,達到心靈的平靜和清晰。
Thumbnail
什麼時候不用反身動詞?什麼時候要?一篇文章弄懂它!
Thumbnail
什麼時候不用反身動詞?什麼時候要?一篇文章弄懂它!
Thumbnail
本文探討NLP中的換框法概念,並提供了具體的案例來解釋如何運用換框法。文章強調了語言的力量,以及換框法對於在得到新的視角後獲得激勵的重要性。最後,文章還介紹了一個線上讀書分享會,將在2024/4/26舉行,探討NLP技巧如何在人際關係中的應用。
Thumbnail
本文探討NLP中的換框法概念,並提供了具體的案例來解釋如何運用換框法。文章強調了語言的力量,以及換框法對於在得到新的視角後獲得激勵的重要性。最後,文章還介紹了一個線上讀書分享會,將在2024/4/26舉行,探討NLP技巧如何在人際關係中的應用。
Thumbnail
搞了這麼久,接下來好像是真的要回到凡間了。
Thumbnail
搞了這麼久,接下來好像是真的要回到凡間了。
Thumbnail
外語的迷惑顛倒: 音,全社會都不懂不屑也不管; 形、義,則是同時間一起硬學。
Thumbnail
外語的迷惑顛倒: 音,全社會都不懂不屑也不管; 形、義,則是同時間一起硬學。
Thumbnail
術語在專業領域中具有重要作用,它可以簡化複雜的概念並區分不同系統。然而,在自媒體興盛的環境下,用於轉譯的術語不一定能傳達完整的知識。此外,一些本應是專業術語的詞彙,卻常常被誤用和濫用,失去了原本的明確內涵。
Thumbnail
術語在專業領域中具有重要作用,它可以簡化複雜的概念並區分不同系統。然而,在自媒體興盛的環境下,用於轉譯的術語不一定能傳達完整的知識。此外,一些本應是專業術語的詞彙,卻常常被誤用和濫用,失去了原本的明確內涵。
Thumbnail
這是一篇討論「日常使用」詞語意義與定義的文章,從多個角度探討了定義的來源、日常使用詞語的定義及解釋力等議題。文章中提到了詞語定義的主觀性,以及透過不同詮釋方式帶來的影響。
Thumbnail
這是一篇討論「日常使用」詞語意義與定義的文章,從多個角度探討了定義的來源、日常使用詞語的定義及解釋力等議題。文章中提到了詞語定義的主觀性,以及透過不同詮釋方式帶來的影響。
Thumbnail
「本土化」一個讓我覺得走歪了的發展,就是割裂歷史淵源,代之以虛幻的「在地性」。
Thumbnail
「本土化」一個讓我覺得走歪了的發展,就是割裂歷史淵源,代之以虛幻的「在地性」。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News