詞性標註 (Part-of-Speech Tagging, POS Tagging)

iPAS AI應用規劃師學習筆記

發佈於自然語言處理與應用

2025/08/08 更新2025/05/27 發佈閱讀 4 分鐘

詞性標註（詞性標註，詞性標註）是自然語言處理（NLP）中的一個基礎任務，指的是為文本中的每個詞彙（通常是斷詞後的結果）分配一個對應的詞性標籤（詞性標註）的過程。這些詞性標籤標註了詞性在句子中所扮演的文法角色。

詞性的種類：

不同的詞性標註系統可以使用不同種類和數量的標籤，但常見的詞性包括：

名詞 (Noun, N):表示人、地點、事物或概念 (例如：蘋果、台北、知識)。
動詞 (Verb, V)：表示動作或狀態（如：吃、跑、是）。
形容詞 (Adjective, ADJ)：修飾名詞或代名詞，表示屬性或特徵（如：大的、紅色的、快樂的）。
副詞 (Adverb, ADV)：修飾動詞、修飾詞或其他副詞，表示方式、程度、時間、地點等（例如：快速地、非常、昨天、這裡）。
代名詞（代名詞，PRON）：用來代替名詞或名詞性詞組（如：我、你、他、它）。
介詞（介詞，P）：表示名詞或代名詞與句子中其他成分的關係（如：在、從、到、為了）。
連接詞（Conjunction，C）：連接詞、片語或句子（例如：和、但是、如果）。
助詞 (Particle, PTCL):附加在其他字首後面，表示語氣或結構 (關係如：的、了、嗎、呢)。
數詞（Numeral、NUM）：表示數量或順序（如：一、二、三、第一）。
量詞（Classifier/Measure Word，M）：和數詞連用，表示事物的單位或數量（如：個、本、次）。
感嘆詞（Interjection，INTJ）：表示強烈的情緒或語氣（如：哇！、哎呀！）。
標點符號（標點符號，PU）：例如：，。？！等。
母名詞 (Proper Noun, NR): 特定的名稱 (例如：Google、台灣)。

詞性標註的重要性：

理解句子結構：詞性標註有助於理解的結構語法，辨識句子中的主詞、述詞、受詞等成分。
語意分析的基礎：詞性資訊對於後續的語意分析非常重要，例如估值的意義和關係。
實體名稱識別：識別名稱實體時，需要依賴詞性資訊來判斷名稱是否屬於特定類型的實體。
資訊搜尋：在搜尋引擎中，詞性資訊可以幫助提高搜尋的準確性。
機器翻譯：翻譯過程中需要考慮來源和目標語言的詞性語言關係。

詞性標註的方法：

詞性標註可以使用多種方法實現，包括：

基於規則的方法（Rule-basedMethods）：根據預先定義的語法規則和搜尋來標註詞性。
基於統計模型的方法（Statistical Model-basedMethods）：利用大規模的標籤語料庫進行訓練，學習詞彙的統計規律和上下文資訊。常用的模型包括隱馬可夫模型（Hidden Markov Model，HMM）、條件隨機場（Conditional Random Field，CRF）等。
以深度學習為基礎的方法（Deep Learning-basedMethods）：近年來，基於深度學習的方法在詞性標註任務中取得了很好的效果。例如，使用循環神經網路（RNN）、Transformer等模型可以直接從文本中學習詞性標註的模式。

中文關鍵字性標註的挑戰：

中文關鍵字面臨一些獨特的挑戰：

詞彙歧義：不同上下文的詞彙可能有不同的詞性（例如：「喜歡」可以是動詞或形容詞）。
缺乏詞態變化：漢語詞彙的詞態變化不像英語等語言那麼豐富，詞性通常需要根據上下文來判斷。
新詞和未登錄詞（詞彙外，OOV）的出現。

總結：

詞性標註每個都是自然語言處理中一個重要的基礎任務，它為文本中的詞彙分配一個語法角色標籤，從而幫助計算機更好地理解句子的結構和意義，並為後續的NLP任務提供支持。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記自然語言處理與應用核心文本前處理技術

留言

郝信華 iPAS AI應用規劃師學習筆記

45會員

572內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他：富邦美術館志工

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/05/27

詞形還原 (Lemmatization)

詞形還原（Lemmatization）是自然語言處理（NLP）中的一個文本正規化的過程。它的目的是一個詞彙的不同形態（屈折形式）還原到其詞典中基本的形式，稱為詞元（引理）或詞幹（基本形式）。詞形還原的目的：統一詞彙表示：不同的詞形可能有相同的基本意義。例如，「running」、「ran」和「

2025/05/27

詞形還原 (Lemmatization)

2025/05/27

斷詞 (Tokenization)

斷詞（標記化）是自然處理（NLP）中的一個基本步驟，指的是一段語言文字（例如句子、段落或整個文件），切掉較小的單元，稱為單字（標記）的過程。這些術語通常是句子中的單字、標記點符號、數字或其他有意義的符號。斷詞的重要性：機器理解的基礎：電腦很難直接理解人類的原始文本。斷詞將文本分割成語言模型可

2025/05/27

斷詞 (Tokenization)

2025/05/25

詞幹提取 (Stemming)

「詞幹提取 (Stemming)」是文本前處理 (Text Preprocessing) 的一個步驟，旨在將詞語還原為它們的基本形式或詞幹 (stem)。這個過程通常通過移除詞語的詞綴（例如，後綴、前綴）來實現，目的是將具有相同詞根的不同詞形歸為一類，從而減少詞語的變異性，並提高後續 NLP 模型處

2025/05/25

詞幹提取 (Stemming)

看更多

你可能也想看

佚名：語言、歷史與生活

【3-4.2】必備入門單句：肯定陳述句──名詞謂語

這個系列的文章希望讓大家能夠學習一些語言學的概念，並且利用它們更有效率地學習各種語言。在文法篇的部分，希望大家瞭解有關語言使用的規則，讓大家能夠更輕鬆地去學習一個語言。

#語言#學習#語言學

2024/03/31

佚名：語言、歷史與生活

【3-4.2】必備入門單句：肯定陳述句──名詞謂語

#語言#學習#語言學

2024/03/31

Amily的沙龍

在理解與拒絕之間：從多重身分觀看《海妲．蓋柏樂》

若說易卜生的《玩偶之家》為 19 世紀的女性，開啟了一扇離家的窄門，那麼《海妲．蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆，同為熟稔文本的演員，亦是深刻體察制度縫隙的當代女性，此文所看見的不僅僅是崩壞前夕的最後發聲，更是女人被迫置於冷酷的制度之下，步步陷入無以言說的困境。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28