文本正規化 (Text Normalization)

更新於 發佈於 閱讀時間約 4 分鐘

「文本正規化 (Text Normalization)」是文本前處理 (Text Preprocessing) 中的一個重要步驟,旨在將文本轉換成一個標準的、統一的格式。這個過程的目的是減少文本的變異性,使得不同的表達方式能夠被視為相同的含義,從而提高後續 NLP 模型或分析的準確性和效率。

你可以將文本正規化想像成將同一件物品的不同樣式整理成一個統一的標準形式,例如將不同的日期格式統一為 "YYYY-MM-DD"。

文本正規化的主要目標:

  • 減少詞彙的變異性 (Reducing Vocabulary Variation): 例如,將相同詞根的不同詞形統一化,或者將大小寫不一致的詞語統一化。
  • 去除不必要的變異 (Removing Irrelevant Variation): 例如,去除標點符號、特殊字符等對於某些任務來說不重要的信息。
  • 將非標準形式轉換為標準形式 (Converting Non-standard Forms): 例如,將數字、日期、貨幣等轉換為統一的格式。

文本正規化的常見技術:

文本正規化涵蓋了多種技術,其中一些我們之前已經討論過,包括:

  1. 大小寫轉換 (Case Conversion): 將所有文本轉換為小寫(或大寫),以確保像 "The" 和 "the" 被視為相同的詞語。通常轉換為小寫更常見。
  2. 標點符號去除 (Punctuation Removal): 移除文本中的標點符號,因為它們在某些任務中可能不包含語義信息。
  3. 數字處理 (Number Handling):
    • 移除數字: 如果數字對於分析任務不重要,可以將其移除。 數字替換: 將所有數字替換為一個特殊的標記(例如 <NUM>)。 數字轉換: 將數字轉換為文本形式(例如,將 "10" 轉換為 "ten")。
  4. 特殊字符處理 (Special Character Handling): 移除或替換特殊字符(例如 *, #, @, $, % 等)。
  5. 縮略語和簡寫擴展 (Acronym and Abbreviation Expansion): 將縮略語(例如 "US")和簡寫(例如 "etc.")擴展為它們的完整形式(例如 "United States", "et cetera")。
  6. 詞幹提取 (Stemming) 和詞形還原 (Lemmatization): 將詞語還原為它們的基本形式,以減少詞語的詞形變化帶來的影響。
  7. 拼寫校正 (Spelling Correction): 校正文本中的拼寫錯誤,以減少由於拼寫錯誤導致的詞語變異性。
  8. 統一日期和時間格式 (Date and Time Format Unification): 將文本中不同的日期和時間表示方式轉換為一個統一的標準格式。
  9. 統一貨幣符號和單位 (Currency Symbol and Unit Unification): 將不同的貨幣符號和單位轉換為一個標準的形式。

重要性:

文本正規化是提高 NLP 模型性能的關鍵步驟,它可以:

  • 提高模型準確性: 通過將不同的表達方式統一化,模型可以更好地學習詞語和概念之間的關係。
  • 簡化模型: 減少詞彙表的大小,降低模型的複雜性。
  • 提高模型泛化能力: 使模型對輸入文本的微小變化更加魯棒。

需要注意的是,具體需要進行哪些文本正規化步驟取決於具體的 NLP 任務和數據特性。例如,對於詞性標註任務,可能需要保留大小寫信息;而對於文本分類任務,統一為小寫可能更有益。因此,在進行文本正規化時,需要仔細考慮其對後續任務的影響。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
4會員
194內容數
現職 : 富邦建設資訊副理 經濟部 iPAS AI應用規劃師
2025/05/25
「語意相似度計算 (Semantic Similarity Calculation)」是自然語言處理 (NLP) 領域的一個核心任務,旨在衡量兩個或多個文本片段(可以是詞語、句子、段落或文檔)在意義上的接近程度。與詞彙相似度(僅比較字面上相同的詞語)不同,語意相似度試圖理解文本的內在含義,即使詞語不
2025/05/25
「語意相似度計算 (Semantic Similarity Calculation)」是自然語言處理 (NLP) 領域的一個核心任務,旨在衡量兩個或多個文本片段(可以是詞語、句子、段落或文檔)在意義上的接近程度。與詞彙相似度(僅比較字面上相同的詞語)不同,語意相似度試圖理解文本的內在含義,即使詞語不
2025/05/25
「語法分析 / 句法剖析 (Parsing)」是自然語言處理 (NLP) 領域的一個重要任務,指的是分析一個句子或一段文本的語法結構,並將其表示成一種層次化的結構(通常是樹狀結構),以揭示句子中詞語之間的語法關係。 簡單來說,語法分析的目標是理解句子是如何由詞語組成的,以及這些詞語是如何相互關聯的
2025/05/25
「語法分析 / 句法剖析 (Parsing)」是自然語言處理 (NLP) 領域的一個重要任務,指的是分析一個句子或一段文本的語法結構,並將其表示成一種層次化的結構(通常是樹狀結構),以揭示句子中詞語之間的語法關係。 簡單來說,語法分析的目標是理解句子是如何由詞語組成的,以及這些詞語是如何相互關聯的
2025/05/25
「事件提取 (Event Extraction)」是自然語言處理 (NLP) 領域的一個重要任務,旨在從非結構化的文本中自動識別和提取事件 (events) 的信息。這包括確定事件的發生、事件的類型、以及與事件相關的參與者和屬性。 你可以將事件提取想像成一個過程,在這個過程中,計算機閱讀文本,識別
2025/05/25
「事件提取 (Event Extraction)」是自然語言處理 (NLP) 領域的一個重要任務,旨在從非結構化的文本中自動識別和提取事件 (events) 的信息。這包括確定事件的發生、事件的類型、以及與事件相關的參與者和屬性。 你可以將事件提取想像成一個過程,在這個過程中,計算機閱讀文本,識別
看更多
你可能也想看
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
不論是平面設計、介面設計,都能見排版這一詞。而排版的作用,即在明確的設計目標中,將所有元素做有組織的安排,精確地傳達訊息。
Thumbnail
不論是平面設計、介面設計,都能見排版這一詞。而排版的作用,即在明確的設計目標中,將所有元素做有組織的安排,精確地傳達訊息。
Thumbnail
要做會議記錄或課程筆記,想做逐字稿卻苦於打字速度不夠快嗎?錄音再慢慢回放浪費時間又容易恍神?這篇文章包你滿意,不用再浪費時間爬文了,你需要的逐字稿神器在這裡,保母級教學!
Thumbnail
要做會議記錄或課程筆記,想做逐字稿卻苦於打字速度不夠快嗎?錄音再慢慢回放浪費時間又容易恍神?這篇文章包你滿意,不用再浪費時間爬文了,你需要的逐字稿神器在這裡,保母級教學!
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
排版微系列調專門分享如何透過一些調整讓設計與排版更好看,並且每張設計都會說明為何調整的原因,以及原本設計可能有的問題。 如果你是設計初學者那這份內容會很適合你,因為會很細節的去講解排版原因,如果你看完喜歡,我每月會有三篇微調詳解固定分享給訂閱會員,歡迎訂閱。
Thumbnail
排版微系列調專門分享如何透過一些調整讓設計與排版更好看,並且每張設計都會說明為何調整的原因,以及原本設計可能有的問題。 如果你是設計初學者那這份內容會很適合你,因為會很細節的去講解排版原因,如果你看完喜歡,我每月會有三篇微調詳解固定分享給訂閱會員,歡迎訂閱。
Thumbnail
在信息化時代,PDF文件無處不在。無論是學術研究、商業文件還是個人檔案,PDF都已成為最常見的文檔格式。然而,許多PDF文件是通過掃描紙質文檔生成的,這些文件中的文字無法直接編輯或複製。借助先進的OCR技術,使用者可以將掃描的PDF轉換為可搜索的文本,提升工作和學習效率。
Thumbnail
在信息化時代,PDF文件無處不在。無論是學術研究、商業文件還是個人檔案,PDF都已成為最常見的文檔格式。然而,許多PDF文件是通過掃描紙質文檔生成的,這些文件中的文字無法直接編輯或複製。借助先進的OCR技術,使用者可以將掃描的PDF轉換為可搜索的文本,提升工作和學習效率。
Thumbnail
在本文中,我們將瞭解如何將掃描的PDF轉換為可搜索文本,並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。
Thumbnail
在本文中,我們將瞭解如何將掃描的PDF轉換為可搜索文本,並高效管理和查找文件。探索先進的OCR技術如何提升文檔處理效率。
Thumbnail
在當今數字化時代,需求日益增長。本文詳細介紹了幾種常用的PDF轉Word方法,並討論了它們的侷限性。接下來,我們將向您介紹pdftopdf.ai,一款具有先進的OCR和LLM技術,提供高效且保持原始文件格式和質量的解決方案。
Thumbnail
在當今數字化時代,需求日益增長。本文詳細介紹了幾種常用的PDF轉Word方法,並討論了它們的侷限性。接下來,我們將向您介紹pdftopdf.ai,一款具有先進的OCR和LLM技術,提供高效且保持原始文件格式和質量的解決方案。
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
先前藉由加入提示詞控制畫面內容與品質後,發現圖像放大後細節感覺糊糊的,這篇就要來測試幾個增加細節的方法,測試使用的工作流是基於A1111算法的工作流,且使用固定種子。
Thumbnail
先前藉由加入提示詞控制畫面內容與品質後,發現圖像放大後細節感覺糊糊的,這篇就要來測試幾個增加細節的方法,測試使用的工作流是基於A1111算法的工作流,且使用固定種子。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News