斷詞 (Tokenization)

更新 發佈閱讀 4 分鐘

斷詞(標記化)是自然處理(NLP)中的一個基本步驟,指的是一段語言文字(例如句子、段落或整個文件),切掉較小的單元,稱為單字(標記)的過程。這些術語通常是句子中的單字、標記點符號、數字或其他有意義的符號。

斷詞的重要性:

  • 機器理解的基礎:電腦很難直接理解人類的原始文本。斷詞將文本分割成語言模型可以更容易處理和分析離散單元。
  • 處理後續的準備:斷言是許多後續NLP任務的先決條件,例如:
    • 詞性標籤(詞性標註):需要知道每個單字才能判斷其詞性。
    • 實體命名辨識(Named Entity Recognition):需要先將文字斷成字詞才能辨識出人名、地名、組織名等。
    • 文本分類(Text Classification):將文件劃分到不同的類別時,通常基於文本中詞彙的出現頻率等資訊。
    • 機器翻譯(Machine Translation):需要將源語言的文本斷詞後才能進行翻譯。
    • 資訊檢索(Information Retrieval):搜尋引擎通常會對使用者的查詢和文件進行斷詞,然後進行配對。

斷詞的方式:

斷詞的方法會根據語言的特性而得到不同的:

  • 中文等以空格分隔的語言:對於中文等語言,斷詞相對簡單,通常可以根據空格和標點符號來切分。例如,句子“Hello, world!” 可以切分為“Hello”,“,”,“world”,“!”。
  • 中文、日文、韓文等無明顯空格分隔的語言:這些語言的詞彙之間沒有明顯的空格分隔,因此斷詞是一個更複雜的任務。需要使用專門的斷詞算法和搜尋來確定詞彙的邊界。

中文斷詞(中文分詞,CWS):

中文斷詞是中文自然語言處理中一個很重要的環節。由於中文詞彙之間沒有空格,一個連續的漢字序列可能有多種不同的切分方式,不同的切分方式會產生不同的語意。因此,準確地進行中文斷詞作為後續的NLP任務核心。

常見的中文斷詞方法包括:

  • 基於字典的方法(Dictionary-basedMethods):
    • 這些方法維護一個包含大量詞彙的字典。斷詞時,將文本與字典中的詞彙進行匹配,找出所有可能的切分方式。
    • 根據不同的策略(例如,最大匹配法、最小切分法)選擇最佳的切分結果。
    • 優點:簡單易實現,對於搜尋中已有的單字效果更好。
    • 缺點:無法處理字典中沒有的新詞(Out-of-Vocabulary,OOV)和歧義切分問題。
  • 基於統計模型的方法(Statistical Model-basedMethods):
    • 這些方法利用大規模的語料庫進行訓練,學習詞彙的統計規律。
    • 常用的模型包括隱馬可夫模型(Hidden Markov Model,HMM)、條件隨機場(Conditional Random Field,CRF)等。
    • 優點:能夠處理字典中沒有的新詞和一些歧義切分問題。
    • 缺點:依賴語言料庫的品質和大小。
  • 基於深度學習的方法(Deep Learning-basedMethods):
    • 最近,基於深度學習的斷詞方法取得了顯著的進展。例如,使用循環神經網路(Recurrent Neural Network,RNN)、Transformer 等模型直接來自文本中學習斷詞的模式。
    • 句子的優點:能夠更好地捕捉上下文訊息,提高斷詞的準確性,尤其是在複雜的和新詞方面。
    • 缺點:需要大量的訓練資料和運算資源。

總結:

不同的語言有不同的斷詞方式,而中文斷詞由於其語言特性,是一個相對複雜但非常重要的 NLP 任務。準確的斷詞是後續各種 NLP 應用的關鍵。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
21會員
495內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/05/27
詞性標註(詞性標註,詞性標註)是自然語言處理(NLP)中的一個基礎任務,指的是為文本中的每個詞彙(通常是斷詞後的結果)分配一個對應的詞性標籤(詞性標註)的過程。這些詞性標籤標註了詞性在句子中所扮演的文法角色。 詞性的種類: 不同的詞性標註系統可以使用不同種類和數量的標籤,但常見的詞性包括: 名
2025/05/27
詞性標註(詞性標註,詞性標註)是自然語言處理(NLP)中的一個基礎任務,指的是為文本中的每個詞彙(通常是斷詞後的結果)分配一個對應的詞性標籤(詞性標註)的過程。這些詞性標籤標註了詞性在句子中所扮演的文法角色。 詞性的種類: 不同的詞性標註系統可以使用不同種類和數量的標籤,但常見的詞性包括: 名
2025/05/27
詞形還原(Lemmatization)是自然語言處理(NLP)中的一個文本正規化的過程。它的目的是一個詞彙的不同形態(屈折形式)還原到其詞典中基本的形式,稱為詞元(引理)或詞幹(基本形式)。 詞形還原的目的: 統一詞彙表示:不同的詞形可能有相同的基本意義。例如,「running」、「ran」和「
2025/05/27
詞形還原(Lemmatization)是自然語言處理(NLP)中的一個文本正規化的過程。它的目的是一個詞彙的不同形態(屈折形式)還原到其詞典中基本的形式,稱為詞元(引理)或詞幹(基本形式)。 詞形還原的目的: 統一詞彙表示:不同的詞形可能有相同的基本意義。例如,「running」、「ran」和「
2025/05/25
「字符級模型 (Character-level Models)」是自然語言處理 (NLP) 中處理文本數據的一種方法。與常見的詞語級模型 (Word-level Models) 不同,字符級模型直接將文本視為一個字符序列進行處理,而不是將文本首先分割成詞語。 你可以將詞語級模型想像成以單詞為單位來
2025/05/25
「字符級模型 (Character-level Models)」是自然語言處理 (NLP) 中處理文本數據的一種方法。與常見的詞語級模型 (Word-level Models) 不同,字符級模型直接將文本視為一個字符序列進行處理,而不是將文本首先分割成詞語。 你可以將詞語級模型想像成以單詞為單位來
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在AI說書 - 從0開始 - 42中,見識了 Tokenizer 做的事情了,以下來羅列幾個要點: 它將原始文字轉成小寫 有可能將原始文字再進行切割 通常 T
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在AI說書 - 從0開始 - 42中,見識了 Tokenizer 做的事情了,以下來羅列幾個要點: 它將原始文字轉成小寫 有可能將原始文字再進行切割 通常 T
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作,抑或是 'Token-to-Token' 操作,白話來講就是:「對於句子中
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作,抑或是 'Token-to-Token' 操作,白話來講就是:「對於句子中
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
1.0 從函數到函算語法 1.1 句子成份 本書關注的是句子成份的分析。 如前述,詞類和句子成份是兩個很不一樣的概念。 詞類的劃分屬歸類性的描述。我們先有一個給定的詞彙,然後劃分若干詞類,比如名詞﹑動詞﹑形容詞等,再進而對詞彙中的每一個詞進行分類,即說某詞屬名詞﹑某詞屬動詞﹑某詞可以是名
Thumbnail
1.0 從函數到函算語法 1.1 句子成份 本書關注的是句子成份的分析。 如前述,詞類和句子成份是兩個很不一樣的概念。 詞類的劃分屬歸類性的描述。我們先有一個給定的詞彙,然後劃分若干詞類,比如名詞﹑動詞﹑形容詞等,再進而對詞彙中的每一個詞進行分類,即說某詞屬名詞﹑某詞屬動詞﹑某詞可以是名
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
透過適當的語言和文字表達,人們可以溝通訊息和態度。轉折詞的運用和標點符號的使用會影響溝通的準確性和情緒表達。
Thumbnail
透過適當的語言和文字表達,人們可以溝通訊息和態度。轉折詞的運用和標點符號的使用會影響溝通的準確性和情緒表達。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News