詞袋模型 (Bag-of-Words, BoW)

iPAS AI應用規劃師學習筆記

發佈於自然語言處理與應用

2025/08/08 更新2025/05/25 發佈閱讀 4 分鐘

「詞袋模型 (Bag-of-Words, BoW)」是一種在自然語言處理 (NLP) 和信息檢索 (IR) 中常用的文本表示方法。它的核心思想是將一段文本（例如一個句子、一個文檔）表示為其中所包含的詞語的集合，而忽略詞語的順序和語法結構。

你可以將詞袋模型想像成一個裝滿詞語的袋子。這個模型只關心袋子裡有哪些詞語，以及每個詞語出現了多少次，而不關心這些詞語在原始文本中的排列順序。

詞袋模型的工作原理：

建立詞彙表 (Vocabulary Creation): 首先，需要遍歷所有的文本數據，提取出所有出現過的獨特詞語，構建成一個詞彙表。
文本向量化 (Text Vectorization): 對於每一個文本（例如一個句子或一個文檔），我們創建一個向量，這個向量的長度等於詞彙表的大小。向量中的每個元素對應詞彙表中的一個詞語，而該元素的值表示這個詞語在當前文本中出現的次數。

舉例說明：

假設我們有以下兩個句子：

句子 1: "This is the first document."

句子 2: "This document is the second."

首先，我們建立詞彙表：{"this", "is", "the", "first", "document", "second"}

然後，我們將這兩個句子表示成詞袋向量：

句子 1 的向量：[1, 1, 1, 1, 1, 0] ("this" 出現 1 次, "is" 出現 1 次, "the" 出現 1 次, "first" 出現 1 次, "document" 出現 1 次, "second" 出現 0 次)
句子 2 的向量：[1, 1, 1, 0, 1, 1] ("this" 出現 1 次, "is" 出現 1 次, "the" 出現 1 次, "first" 出現 0 次, "document" 出現 1 次, "second" 出現 1 次)

詞袋模型的優點：

簡單且易於實現： 詞袋模型的概念非常直觀，實現起來也相對簡單。
計算效率高： 相比於考慮詞語順序的模型，詞袋模型的計算效率通常更高。
在一些任務上表現良好： 對於一些文本分類、情感分析等任務，詞袋模型可以作為一個有效的基線模型。

詞袋模型的缺點：

忽略詞語順序： 這是詞袋模型最主要的缺點。由於它不考慮詞語在文本中的順序，因此可能會丟失重要的語義信息。例如，“dog bites man” 和 “man bites dog” 在詞袋模型中會被表示成相同的向量，但它們的含義卻完全不同。
忽略語義關係： 詞袋模型將每個詞語都視為獨立的，無法捕捉詞語之間的語義關係，例如同義詞或近義詞。
稀疏性： 當詞彙表很大時，每個文本的詞袋向量通常會非常稀疏（包含大量的 0），因為每個文本只會包含詞彙表中的一部分詞語。

詞袋模型的常見實現方式：

CountVectorizer (在 Scikit-learn 中): 將文本轉換為詞頻矩陣。
TF-IDF (Term Frequency-Inverse Document Frequency): 在詞頻的基礎上，考慮了詞語在整個文檔集合中的重要性。TF-IDF 會對在所有文檔中都常見的詞語（例如 "the", "a"）進行降權，而對在特定文檔中更重要的詞語進行加權。

總結來說，詞袋模型是一種簡單但有效的文本表示方法，它通過統計文本中詞語的出現頻率來將文本轉換成向量形式，忽略了詞語的順序和語法結構。儘管存在一些局限性，但它仍然是許多 NLP 任務的基礎，並且可以作為更複雜模型的一個很好的起點。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記自然語言處理與應用NLP模型與演算法

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

31會員

512內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 (初級) AWS Certified AI Practitioner (AIF-C01) 經濟部 iPAS AI應用規劃師數據分析 (中級)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/05/25

詞形還原 (Lemmatization)

「詞形還原 (Lemmatization)」是文本前處理 (Text Preprocessing) 的另一個重要步驟，它與詞幹提取 (Stemming) 的目標相似，都是將詞語還原為其基本形式。然而，詞形還原更加精確，它會考慮詞語的詞性 (Part of Speech, POS) 和語境，將詞語轉換

2025/05/25

詞形還原 (Lemmatization)

2025/05/25

詞幹提取 (Stemming)

「詞幹提取 (Stemming)」是文本前處理 (Text Preprocessing) 的一個步驟，旨在將詞語還原為它們的基本形式或詞幹 (stem)。這個過程通常通過移除詞語的詞綴（例如，後綴、前綴）來實現，目的是將具有相同詞根的不同詞形歸為一類，從而減少詞語的變異性，並提高後續 NLP 模型處

2025/05/25

詞幹提取 (Stemming)

2025/05/25

停用詞移除 (Stop Word Removal)

「停用詞移除 (Stop Word Removal)」是文本前處理 (Text Preprocessing) 的一個常見步驟，指的是將文本中一些常見的、但通常被認為對文本的語義理解沒有太大貢獻的詞語（即「停用詞」）從文本中移除的過程。什麼是停用詞？停用詞通常是指在文本中頻繁出現，但本身並不包

2025/05/25

停用詞移除 (Stop Word Removal)

看更多

你可能也想看

暖茶文鳥町｜鳥日常·插畫

暖家對抗潮濕對策：防潮好物分享

暖家的防潮、除濕用品分享，若你知道有什麼CP值更高的用品，請推薦給我！同時也分享蝦皮分潤計畫的好處。

#蝦皮分潤計畫#蝦皮1212#蝦皮免運

2025/11/26

暖茶文鳥町｜鳥日常·插畫

暖家對抗潮濕對策：防潮好物分享

暖家的防潮、除濕用品分享，若你知道有什麼CP值更高的用品，請推薦給我！同時也分享蝦皮分潤計畫的好處。

#蝦皮分潤計畫#蝦皮1212#蝦皮免運

2025/11/26

氵函 🐈‍⬛ 動植物溝通

寒流、冬天保暖佈置❄️手腳冰冷必備怕冷禦寒小物｜CP值爆表、實用防寒小物全指南｜蝦皮雙12這樣買最省

寒流來襲，你準備好禦寒小物了嗎？小吉推薦實際使用過、愛用且會回購的防寒小物，強調兼具美感與實用的選品原則。居家必備的地毯、手腳保暖小物（貓咪襪子、防水鋪棉手套、絨毛室內拖鞋）、電力保暖用品（電動暖暖包、可定時電熱毯），泡腳桶、浴室電暖器。特別整理蝦皮雙 12 活動攻略，並邀請你透過連結購買加入分潤。

#蝦皮雙十二#蝦皮雙12#雙十二

2025/11/27