ELMo 和 BERT 提供的嵌入,與傳統的靜態詞嵌入(如 Word2Vec)的主要區別

更新於 發佈於 閱讀時間約 2 分鐘

ELMo 和 BERT 提供的嵌入與傳統的靜態詞嵌入(如 Word2Vec)的主要區別在於它們是否為上下文相關 (contextual)

靜態詞嵌入 (Static Embeddings)

  • 代表模型: Word2Vec、GloVe、FastText
  • 主要特點:
    • 單一詞彙,單一向量: 每個詞彙在詞彙表中只有一個固定的向量表示。例如,「bank」這個詞,無論在「river bank」(河岸)還是在「financial bank」(銀行)的句子中,它的向量都是相同的。
    • 忽略上下文: 它們無法區分多義詞在不同語境中的含義差異。
    • 計算方式: 這些模型通常是根據詞彙在大型語料庫中的共現關係來學習的。

上下文相關詞嵌入 (Contextual Embeddings)

  • 代表模型: ELMo、BERT
  • 主要特點:
    • 動態向量表示: 同一個詞彙,會根據它在句子中的上下文,生成不同的向量表示。例如,BERT 對於「I went to the river bank」中的「bank」和「I went to the financial bank」中的「bank」,會生成兩個不同的向量,精準地捕捉到它的語義。
    • 捕捉語義: 這些模型能夠理解多義詞、同義詞、甚至複雜的語法結構。
    • 雙向編碼: BERT 特別使用了 Transformer 的雙向編碼器,使其在生成嵌入時能夠同時考慮一個詞彙前後的全部上下文信息,從而獲得更豐富、更準確的語義表示。而 ELMo 則使用了兩個獨立的從左到右和從右到左的 LSTM 網絡來實現雙向性。
    • 預訓練與微調 (Pre-training and Fine-tuning): 這些模型通常在大型通用語料庫上進行預訓練,學習語言的深層模式。然後,可以針對特定的下游任務(如情感分析、問答系統)使用較小的、帶有標註的資料集進行微調,以達到更好的性能。

比較總結

raw-image


留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
15會員
417內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/08/26
ELMo(Embeddings from Language Models)是一種在自然語言處理(NLP)中使用的深度學習詞嵌入模型,於2018年由Allen Institute for AI及華盛頓大學提出。與傳統靜態詞向量(如Word2Vec、GloVe)不同,ELMo產生的是**「上下文相關的詞
2025/08/26
ELMo(Embeddings from Language Models)是一種在自然語言處理(NLP)中使用的深度學習詞嵌入模型,於2018年由Allen Institute for AI及華盛頓大學提出。與傳統靜態詞向量(如Word2Vec、GloVe)不同,ELMo產生的是**「上下文相關的詞
2025/08/26
困惑度(Perplexity,簡稱PPL)是自然語言處理(NLP)及大型語言模型中常用來衡量模型預測能力的指標。 它的意義在於衡量模型在對一句話或一組語料作預測時的「困惑程度」或「不確定性」: 困惑度越低,表示模型對文本的預測能力越強,能較準確地猜出下一個字詞。 困惑度越高,代表模型在預測時感到
2025/08/26
困惑度(Perplexity,簡稱PPL)是自然語言處理(NLP)及大型語言模型中常用來衡量模型預測能力的指標。 它的意義在於衡量模型在對一句話或一組語料作預測時的「困惑程度」或「不確定性」: 困惑度越低,表示模型對文本的預測能力越強,能較準確地猜出下一個字詞。 困惑度越高,代表模型在預測時感到
2025/08/26
One-Hot Encoding (獨熱編碼) 核心定義 One-Hot Encoding 是一種將類別型資料 (Categorical Data) 轉換為機器學習模型能夠理解的數值格式的過程。它將每個類別都轉換成一個新的二元(0 或 1)特徵欄位。 它的核心思想是:在
2025/08/26
One-Hot Encoding (獨熱編碼) 核心定義 One-Hot Encoding 是一種將類別型資料 (Categorical Data) 轉換為機器學習模型能夠理解的數值格式的過程。它將每個類別都轉換成一個新的二元(0 或 1)特徵欄位。 它的核心思想是:在
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 44說完 Embedding ,下一步就是闡述 Positional Embedding,其於原始 Transformer 架構中的角色
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 44說完 Embedding ,下一步就是闡述 Positional Embedding,其於原始 Transformer 架構中的角色
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 43中,闡述了 Embedding 的訓練方式,現在我們來看是否 Embedding 如我們預期般運作: 假設我的目標句子是
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 43中,闡述了 Embedding 的訓練方式,現在我們來看是否 Embedding 如我們預期般運作: 假設我的目標句子是
Thumbnail
給定一個字串陣列,請把它們所共有的字元伴隨著出現次數輸出。這篇文章介紹如何使用字典統計出現次數,和字典取交集的方法來解決此問題。並提供了複雜度分析和關鍵知識點。
Thumbnail
給定一個字串陣列,請把它們所共有的字元伴隨著出現次數輸出。這篇文章介紹如何使用字典統計出現次數,和字典取交集的方法來解決此問題。並提供了複雜度分析和關鍵知識點。
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
Thumbnail
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
Thumbnail
大語言模型(如GPT-3和GPT-4)的出現改變了我們與機器互動的方式。這些模型能夠理解和生成自然語言,實現許多以前無法想像的應用。然而,你可能會好奇,這些模型究竟是如何理解語言的?這裡,我們來探討一個關鍵的概念:「一切語義都是關係」。
Thumbnail
大語言模型(如GPT-3和GPT-4)的出現改變了我們與機器互動的方式。這些模型能夠理解和生成自然語言,實現許多以前無法想像的應用。然而,你可能會好奇,這些模型究竟是如何理解語言的?這裡,我們來探討一個關鍵的概念:「一切語義都是關係」。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News