停用詞移除 (Stop Word Removal)

iPAS AI應用規劃師學習筆記

發佈於自然語言處理與應用

2025/08/08 更新2025/05/25 發佈閱讀 4 分鐘

「停用詞移除 (Stop Word Removal)」是文本前處理 (Text Preprocessing) 的一個常見步驟，指的是將文本中一些常見的、但通常被認為對文本的語義理解沒有太大貢獻的詞語（即「停用詞」）從文本中移除的過程。

什麼是停用詞？

停用詞通常是指在文本中頻繁出現，但本身並不包含太多實質性信息的詞語。這些詞語在各種文本中都普遍存在，因此對於區分不同文本的主題或含義的幫助不大。

常見的停用詞例子：

英文停用詞 (部分)： the, a, is, are, was, were, am, be, being, been, has, have, had, do, does, did, will, would, should, can, could, of, in, on, at, to, for, with, by, about, against, between, into, through, during, before, after, above, below, to, from, up, down, in, out, on, off, over, under, again, further, then, once, here, there, when, where, why, how, all, any, both, each, few, more, most, other, some, such, no, nor, not, only, own, same, so, than, too, very, s, t, can, will, just, don, should, now, 等等。
中文停用詞 (部分)：的、了、是、在、有、和、就、也、都、而、其、一、一個、一些、一樣、這種、那樣、這麼、那麼、所以、因為、如果、雖然、但是、而且、對於、關於、按照、根據、我們、你們、他們、她們、它們、並且、以及、為了、只是、不過、當然、根本、簡直、從來、終於、常常、非常、特別、甚至、等等。

為什麼要移除停用詞？

降低數據維度： 移除停用詞可以顯著減少文本數據中的詞語數量，從而降低後續模型處理的數據維度，減少計算量和記憶體消耗。
突出關鍵詞： 通過移除停用詞，可以使模型更關注那些真正攜帶語義信息的關鍵詞，提高模型對文本主題的理解能力。
提升模型性能： 在某些 NLP 任務中（例如文本分類、信息檢索），移除停用詞可以提高模型的準確性和效率。

何時應該移除停用詞？

停用詞移除通常在文本前處理階段進行，特別是在以下場景中可能比較有用：

文本分類和聚類： 移除停用詞可以幫助模型更關注文本的主題內容。
信息檢索： 在搜索引擎中，移除停用詞可以提高搜索效率和相關性。
主題建模： 移除停用詞可以幫助模型更好地識別文本中的主要話題。

何時可能不應該移除停用詞？

在某些 NLP 任務中，停用詞可能也包含重要的語義信息，因此不應該被移除：

語法分析和句法分析： 停用詞對於理解句子的結構和語法關係至關重要。
情感分析： 有些停用詞（例如 "not"）可以改變句子的情感極性。
機器翻譯： 停用詞在翻譯過程中是必要的。
問答系統： 停用詞可能在問題中扮演重要角色，影響答案的準確性。
語言模型： 語言模型需要預測句子中的每一個詞語，包括停用詞。

總結來說，停用詞移除是一種常見的文本前處理技術，通過移除文本中頻繁出現但語義貢獻較小的詞語，可以降低數據維度、突出關鍵詞，並在某些任務中提升模型性能。然而，是否應該移除停用詞以及移除哪些停用詞，需要根據具體的 NLP 任務和數據特性來仔細考慮。通常，會使用預定義的停用詞列表，也可以根據具體的語料庫創建自定義的停用詞列表。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記自然語言處理與應用核心文本前處理技術

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

29會員

495內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)