N-gram 模型

iPAS AI應用規劃師學習筆記

發佈於自然語言處理與應用

2025/08/08 更新2025/05/25 發佈閱讀 4 分鐘

「N-gram 模型」是一種在自然語言處理 (NLP) 中廣泛使用的簡單但功能強大的語言模型。它的核心思想是基於一個詞語序列中前 n-1 個詞語的出現來預測第 n 個詞語出現的概率。

簡單來說，N-gram 模型通過分析文本中連續出現的 n 個詞語的片段（即 n-grams），來學習語言的統計規律。

N-gram 的概念：

Unigram (1-gram): 單個詞語。例如，對於句子 "The cat sat on the mat"，unigrams 包括 "The", "cat", "sat", "on", "the", "mat"。
Bigram (2-gram): 連續的兩個詞語。例如，對於句子 "The cat sat on the mat"，bigrams 包括 "The cat", "cat sat", "sat on", "on the", "the mat"。
Trigram (3-gram): 連續的三個詞語。例如，對於句子 "The cat sat on the mat"，trigrams 包括 "The cat sat", "cat sat on", "sat on the", "on the mat"。
N-gram: 一般來說，指的是連續的 n 個詞語。

N 的取值：

n=1 (Unigram Model): 假設每個詞語的出現是獨立的，不依賴於前面的詞語。
n=2 (Bigram Model): 假設一個詞語的出現只依賴於它前面的那一個詞語。
n=3 (Trigram Model): 假設一個詞語的出現只依賴於它前面的那兩個詞語。
n 的值越大，模型考慮的上下文信息就越多，但同時也可能導致數據稀疏性問題（即某些長的 n-grams 在訓練數據中出現的次數很少，導致概率估計不準確）。

N-gram 模型的應用：

N-gram 模型被廣泛應用於各種 NLP 任務中：

語言建模： 用於預測文本序列中下一個詞語的概率，是許多生成式 NLP 任務的基礎。
拼寫檢查： 可以檢測文本中不太可能出現的 n-grams，從而發現拼寫錯誤。
機器翻譯： 在早期的統計機器翻譯系統中被用來評估翻譯的流暢性。
文本分類： 可以將 n-grams 作為文本的特徵，用於訓練分類器。
信息檢索： 可以用於計算查詢詞語與文檔之間的相似度。

N-gram 模型的優點：

簡單易懂，容易實現。
計算效率相對較高。
能夠捕捉到詞語之間的一定的局部依賴關係。

N-gram 模型的缺點：

無法捕捉長距離的依賴關係： 模型的預測只依賴於最近的 n-1 個詞語，對於更遠的上下文信息無能為力。
可能存在數據稀疏性問題： 特別是當 n 較大時，許多可能的 n-grams 可能在訓練語料庫中沒有出現過，導致概率為零。通常需要使用平滑技術 (smoothing techniques) 來解決這個問題。
無法考慮詞語的語義相似性： 模型將每個詞語都視為獨立的符號，無法理解詞語之間的語義關係（例如，"dog" 和 "puppy" 在模型看來是不同的）。

總之，N-gram 模型是一種基本且實用的語言模型，它通過統計文本中連續詞語序列的頻率來預測下一個詞語的概率。儘管存在一些局限性，但它仍然是許多 NLP 任務的重要組成部分，並為更複雜的語言模型奠定了基礎。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記自然語言處理與應用詞彙表達與語意理解

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

24會員

495內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/05/25

詞性標註 (Part-of-Speech Tagging, POS Tagging)

「詞性標註 (Part-of-Speech Tagging, POS Tagging)」是自然語言處理 (NLP) 領域的一個基本任務，旨在為文本中的每個詞語（或其他語言單位，例如詞素）分配一個對應的詞性標籤。詞性標籤標示了該詞語在句子中扮演的語法角色，例如名詞、動詞、形容詞、副詞、介詞、連詞、助詞

2025/05/25

詞性標註 (Part-of-Speech Tagging, POS Tagging)

2025/05/25

主題模型 (Topic Modeling)

「主題模型 (Topic Modeling)」是一種在自然語言處理 (NLP) 領域中用於發現大量文檔集合中潛在主題 (topics) 的無監督學習技術。它的目標是自動地從文本數據中識別出隱藏的語義結構，這些結構可以幫助我們理解文檔集合的主要討論內容。你可以將主題模型想像成一位偵探，試圖從大量的

2025/05/25

主題模型 (Topic Modeling)

2025/05/25

文本摘要 (Text Summarization)

「文本摘要 (Text Summarization)」是自然語言處理 (NLP) 領域的一個重要任務，旨在將一篇或多篇文本（例如文章、新聞報導、研究論文）轉換成一個更短的版本，即摘要，同時保留原文中的核心信息和主要內容。目標是生成一個簡潔、準確且易於理解的摘要，讓讀者能夠快速了解原文的要點，而無需閱

2025/05/25

文本摘要 (Text Summarization)

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

#懶人料理#食譜#健康甜點

2025/10/15

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 127 中提及： Transformer 的關鍵參數為：原始 Transformer 模型中，左圖的 N = 6 原始 Tran

#AI#ai#PromptEngineering

2024/08/12

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

#AI#ai#PromptEngineering

2024/08/12

Karen的沙龍

【邁向圖神經網絡GNN】Part5: 建構 GNN model 實作 Cora 資料集結點分類任務

本篇文章介紹如何使用PyTorch構建和訓練圖神經網絡（GNN），並使用Cora資料集進行節點分類任務。通過模型架構的逐步優化，包括引入批量標準化和獨立的消息傳遞層，調整Dropout和聚合函數，顯著提高了模型的分類準確率。實驗結果表明，經過優化的GNN模型在處理圖結構數據具有強大的性能和應用潛力。

#GNN#Graph#dropout

2024/07/28