ELMo 和 BERT 提供的嵌入，與傳統的靜態詞嵌入（如 Word2Vec）的主要區別

iPAS AI應用規劃師學習筆記

發佈於自然語言處理與應用

2025/08/26 更新2025/08/26 發佈閱讀 2 分鐘

ELMo 和 BERT 提供的嵌入與傳統的靜態詞嵌入（如 Word2Vec）的主要區別在於它們是否為上下文相關 (contextual)。

靜態詞嵌入 (Static Embeddings)

代表模型： Word2Vec、GloVe、FastText
主要特點：
- 單一詞彙，單一向量：每個詞彙在詞彙表中只有一個固定的向量表示。例如，「bank」這個詞，無論在「river bank」（河岸）還是在「financial bank」（銀行）的句子中，它的向量都是相同的。
- 忽略上下文：它們無法區分多義詞在不同語境中的含義差異。
- 計算方式：這些模型通常是根據詞彙在大型語料庫中的共現關係來學習的。

上下文相關詞嵌入 (Contextual Embeddings)

代表模型： ELMo、BERT
主要特點：
- 動態向量表示：同一個詞彙，會根據它在句子中的上下文，生成不同的向量表示。例如，BERT 對於「I went to the river bank」中的「bank」和「I went to the financial bank」中的「bank」，會生成兩個不同的向量，精準地捕捉到它的語義。
- 捕捉語義：這些模型能夠理解多義詞、同義詞、甚至複雜的語法結構。
- 雙向編碼： BERT 特別使用了 Transformer 的雙向編碼器，使其在生成嵌入時能夠同時考慮一個詞彙前後的全部上下文信息，從而獲得更豐富、更準確的語義表示。而 ELMo 則使用了兩個獨立的從左到右和從右到左的 LSTM 網絡來實現雙向性。
- 預訓練與微調 (Pre-training and Fine-tuning)：這些模型通常在大型通用語料庫上進行預訓練，學習語言的深層模式。然後，可以針對特定的下游任務（如情感分析、問答系統）使用較小的、帶有標註的資料集進行微調，以達到更好的性能。

比較總結

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記自然語言處理與應用

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

27會員

495內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/08/26

ELMo（Embeddings from Language Models）

ELMo（Embeddings from Language Models）是一種在自然語言處理（NLP）中使用的深度學習詞嵌入模型，於2018年由Allen Institute for AI及華盛頓大學提出。與傳統靜態詞向量（如Word2Vec、GloVe）不同，ELMo產生的是**「上下文相關的詞

2025/08/26

ELMo（Embeddings from Language Models）

2025/08/26

困惑度（Perplexity，簡稱PPL）

困惑度（Perplexity，簡稱PPL）是自然語言處理（NLP）及大型語言模型中常用來衡量模型預測能力的指標。它的意義在於衡量模型在對一句話或一組語料作預測時的「困惑程度」或「不確定性」：困惑度越低，表示模型對文本的預測能力越強，能較準確地猜出下一個字詞。困惑度越高，代表模型在預測時感到

2025/08/26

困惑度（Perplexity，簡稱PPL）

2025/08/26

One-Hot Encoding (獨熱編碼)

One-Hot Encoding (獨熱編碼) 核心定義 One-Hot Encoding 是一種將類別型資料 (Categorical Data) 轉換為機器學習模型能夠理解的數值格式的過程。它將每個類別都轉換成一個新的二元（0 或 1）特徵欄位。它的核心思想是：在

2025/08/26

One-Hot Encoding (獨熱編碼)