斷詞 (Tokenization)

更新 發佈閱讀 4 分鐘

「斷詞 (Tokenization)」是文本前處理 (Text Preprocessing) 中的一個關鍵步驟,指的是將一段文本(例如一個句子、一個段落或一篇文章)分割成更小的單元,這些單元通常被稱為「詞語 (tokens)」。這些 tokens 是後續 NLP 模型進行分析和處理的基本單位。

你可以將 tokenization 看作是將連續的文本流分解成離散的、有意義的塊。對於後續的 NLP 任務,例如詞性標註、命名實體識別、文本分類等,通常都需要先將文本進行斷詞處理。

為什麼需要斷詞?

  • 模型輸入: 大多數 NLP 模型(尤其是基於詞語的模型)需要將文本分解成單個詞語才能進行處理。
  • 語義理解: 將文本分解成詞語是理解文本語義的第一步。模型需要識別出句子中的每個詞語及其含義。
  • 特徵提取: 許多 NLP 特徵(例如詞頻、TF-IDF)都是基於詞語進行計算的。

不同語言的斷詞方法:

斷詞的方法會因語言而異:

  • 英文等空格分隔的語言: 對於英文等語言,最簡單的斷詞方法是基於空格進行分割。例如,句子 "Hello, how are you?" 可以被分割成 tokens:["Hello,", "how", "are", "you", "?"]. 但需要注意的是,標點符號的處理方式可能有所不同,有時會將標點符號作為單獨的 token,有時會將其與詞語合併。
  • 中文、日文、韓文等無明顯空格分隔的語言: 這些語言的詞語之間沒有明顯的空格分隔,因此需要使用更複雜的分詞算法。這些算法通常基於詞典和語法規則,或者使用機器學習模型來判斷文本中哪些字符應該被劃分為一個詞語。例如,中文句子 "我今天很高興。" 可能會被分詞為:["我", "今天", "很", "高興", "。"]. 中文分詞的準確性對後續的 NLP 任務至關重要。

常見的斷詞工具和技術:

  • 基於空格的分割 (Whitespace Tokenization): 簡單地根據空格分割文本。
  • 基於標點符號的分割 (Punctuation-based Tokenization): 將標點符號也視為分隔符或單獨的 token。
  • WordNet Lemmatizer/NLTK 和 spaCy 等工具庫中的分詞器: 這些工具庫提供了更複雜的分詞方法,可以處理標點符號、特殊字符,並針對特定語言進行了優化。
  • 基於子詞 (Subword) 的分詞 (例如 Byte-Pair Encoding - BPE, WordPiece, SentencePiece): 這種方法將詞語分割成更小的子單元(例如詞根、詞綴),可以有效處理未登錄詞 (out-of-vocabulary words) 並減少詞彙表的大小。BERT、GPT 等現代 Transformer 模型廣泛使用子詞分詞技術。

斷詞的粒度:

斷詞的粒度可以不同:

  • 詞語級別 (Word-level Tokenization): 將文本分割成單個詞語。這是最常見的粒度。
  • 字符級別 (Character-level Tokenization): 將文本分割成單個字符。這種方法可以處理任意文本,但可能會丟失詞語的語義信息。
  • 子詞級別 (Subword-level Tokenization): 如前所述,將詞語分割成更小的有意義的單元。

選擇哪種斷詞方法和粒度取決於具體的 NLP 任務和所使用的模型。正確地進行斷詞是後續 NLP 流程的基礎。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
21會員
495內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/05/25
「文本前處理 (Text Preprocessing)」是指在將原始文本數據用於 NLP 模型或分析之前,對文本進行的一系列清理、標準化和轉換操作。其目的是將原始文本轉換成更適合模型處理和分析的格式,從而提高模型的性能和效果。 你可以將文本前處理想像成廚師在烹飪之前對食材進行清洗、切菜等準備工作。
2025/05/25
「文本前處理 (Text Preprocessing)」是指在將原始文本數據用於 NLP 模型或分析之前,對文本進行的一系列清理、標準化和轉換操作。其目的是將原始文本轉換成更適合模型處理和分析的格式,從而提高模型的性能和效果。 你可以將文本前處理想像成廚師在烹飪之前對食材進行清洗、切菜等準備工作。
2025/05/24
自然語言處理 (NLP) 是一個持續快速發展的領域,未來充滿了令人期待的趨勢和發展方向。以下是一些值得關注的 NLP 未來趨勢: 1. 更強大、更智能的大型語言模型 (LLMs): 更大的規模和更高的效率: LLM 的參數規模預計將持續增長,帶來更強的理解和生成能力。同時,研究也會更加關注如何提
2025/05/24
自然語言處理 (NLP) 是一個持續快速發展的領域,未來充滿了令人期待的趨勢和發展方向。以下是一些值得關注的 NLP 未來趨勢: 1. 更強大、更智能的大型語言模型 (LLMs): 更大的規模和更高的效率: LLM 的參數規模預計將持續增長,帶來更強的理解和生成能力。同時,研究也會更加關注如何提
2025/05/24
Transformer 模型自 2017 年被提出以來,已經成為自然語言處理 (NLP) 領域的基石,並催生了眾多變體和發展。這些變體在原始 Transformer 的基礎上進行了各種改進和調整,以適應不同的任務需求、提高性能、減少計算成本或探索新的應用方向。以下是一些主要的 Transformer
2025/05/24
Transformer 模型自 2017 年被提出以來,已經成為自然語言處理 (NLP) 領域的基石,並催生了眾多變體和發展。這些變體在原始 Transformer 的基礎上進行了各種改進和調整,以適應不同的任務需求、提高性能、減少計算成本或探索新的應用方向。以下是一些主要的 Transformer
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在AI說書 - 從0開始 - 42中,見識了 Tokenizer 做的事情了,以下來羅列幾個要點: 它將原始文字轉成小寫 有可能將原始文字再進行切割 通常 T
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在AI說書 - 從0開始 - 42中,見識了 Tokenizer 做的事情了,以下來羅列幾個要點: 它將原始文字轉成小寫 有可能將原始文字再進行切割 通常 T
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作,抑或是 'Token-to-Token' 操作,白話來講就是:「對於句子中
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作,抑或是 'Token-to-Token' 操作,白話來講就是:「對於句子中
Thumbnail
1.0 從函數到函算語法 1.1 句子成份 本書關注的是句子成份的分析。 如前述,詞類和句子成份是兩個很不一樣的概念。 詞類的劃分屬歸類性的描述。我們先有一個給定的詞彙,然後劃分若干詞類,比如名詞﹑動詞﹑形容詞等,再進而對詞彙中的每一個詞進行分類,即說某詞屬名詞﹑某詞屬動詞﹑某詞可以是名
Thumbnail
1.0 從函數到函算語法 1.1 句子成份 本書關注的是句子成份的分析。 如前述,詞類和句子成份是兩個很不一樣的概念。 詞類的劃分屬歸類性的描述。我們先有一個給定的詞彙,然後劃分若干詞類,比如名詞﹑動詞﹑形容詞等,再進而對詞彙中的每一個詞進行分類,即說某詞屬名詞﹑某詞屬動詞﹑某詞可以是名
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
這個系列的文章希望讓大家能夠學習一些語言學的概念,並且利用它們更有效率地學習各種語言。在文法篇的部分,希望大家瞭解有關語言使用的規則,讓大家能夠更輕鬆地去學習一個語言。前面已經介紹語言的基本語序、修飾語序,瞭解每個語言都又不同的排列規則後,我們就可以開始學習一個語言要如何表達一個完整句子。
Thumbnail
這個系列的文章希望讓大家能夠學習一些語言學的概念,並且利用它們更有效率地學習各種語言。在文法篇的部分,希望大家瞭解有關語言使用的規則,讓大家能夠更輕鬆地去學習一個語言。前面已經介紹語言的基本語序、修飾語序,瞭解每個語言都又不同的排列規則後,我們就可以開始學習一個語言要如何表達一個完整句子。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News