BERT(Bidirectional Encoder Representations from Transformer)

2025/08/08 更新2025/05/24 發佈閱讀 4 分鐘

是一種基於 Transformer 模型架構的預訓練語言模型，由 Google 於 2018 年提出，並在自然語言處理 (NLP) 領域產生了巨大的影響。BERT 的核心創新在於它能夠學習到詞語在句子中的雙向上下文表示，從而在各種下游 NLP 任務中取得了卓越的性能。

BERT 的主要特點和創新：

基於 Transformer 架構： BERT 的核心是 Transformer 的編碼器部分。它使用了多層的雙向 Transformer 編碼器來提取文本的深層表示。
雙向 (Bidirectional) 表示：這是 BERT 最重要的特點之一。傳統的語言模型（例如 Word2Vec 或 GloVe）通常為每個詞語生成一個固定的嵌入向量，而 BERT 能夠根據詞語在句子中的上下文，生成動態的、與語境相關的嵌入表示。更重要的是，BERT 是真正意義上的雙向模型，它在訓練時會同時考慮詞語的左側和右側的上下文信息，這使得它能更好地理解詞語在不同語境下的含義。
預訓練 (Pre-training) 和微調 (Fine-tuning) 範式： BERT 的訓練分為兩個階段：
- 預訓練階段：在一個巨大的文本語料庫（例如 Wikipedia 和 BookCorpus）上，使用兩個無監督的預訓練任務來訓練模型的參數。微調階段：針對特定的下游 NLP 任務（例如文本分類、命名實體識別、問答等），使用相對較小的標註數據集對預訓練好的 BERT 模型進行微調。這個微調過程只需要添加一個小的任務特定的輸出層。
兩個主要的預訓練任務：
- 掩碼語言模型 (Masked Language Model, MLM): 在輸入文本中隨機地遮蓋 (mask) 掉一部分詞語（例如 15%），然後讓模型預測被遮蓋掉的詞語。這個任務迫使模型理解詞語的雙向上下文。下一句預測 (Next Sentence Prediction, NSP): 給模型一對句子，讓模型預測第二個句子是否是第一個句子的下一句。這個任務旨在讓模型學習句子之間的關係。（值得注意的是，後來的研究表明 NSP 對某些任務的提升有限，因此一些 BERT 的變體模型已經不再使用這個預訓練任務。）

BERT 模型的主要優勢：

強大的上下文表示能力： BERT 能夠根據上下文生成詞語的動態表示，更好地理解詞語的含義和用法。
在多個 NLP 任務上表現出色： 預訓練好的 BERT 模型只需要經過少量的微調，就能在各種下游 NLP 任務上取得非常好的性能，甚至超越了當時許多專為特定任務設計的模型。
簡化了 NLP 的流程： BERT 的預訓練和微調範式大大簡化了 NLP 的開發流程，研究人員和開發者不再需要從頭開始訓練針對每個特定任務的模型。
多種預訓練模型和變體： Google 釋放了多種預訓練的 BERT 模型，包括不同大小的版本（例如 BERT-base 和 BERT-large），以及針對不同語言和領域的版本。

BERT 的使用方式：

通常，要使用 BERT，你會下載一個已經在大規模語料庫上預訓練好的 BERT 模型，然後根據你的具體 NLP 任務，在你的標註數據集上對模型進行微調。這個微調過程通常只需要調整模型頂部的一個或幾個輸出層。

總結來說，BERT 是一種基於 Transformer 的、經過大規模語料庫雙向預訓練的語言模型。它的主要貢獻在於提出了有效的預訓練方法，使得模型能夠學習到強大的上下文表示，並能夠通過微調快速適應各種下游 NLP 任務，從而極大地推動了 NLP 領域的發展。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記自然語言處理與應用序列模型與架構

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

25會員

495內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/05/24

Transformer 模型架構

是一種在自然語言處理 (NLP) 領域引起革命性突破的深度學習架構，尤其在處理序列到序列 (Seq2Seq) 的任務上表現出色。它完全依賴於注意力機制（特別是自注意力）來建模序列中元素之間的依賴關係，而不再像傳統的 RNN 那樣依賴於循環結構。 Transformer 模型的主要組成部分： Tr

2025/05/24

Transformer 模型架構

2025/05/24

自注意力 (Self-Attention)

"自注意力 (Self-Attention)" 是一種特殊的注意力機制，與我們之前討論的注意力機制不同之處在於，它不是讓輸出序列的元素去關注輸入序列的元素，而是讓輸入序列的每個元素都去關注輸入序列中的所有其他元素（包括自身），從而捕捉序列內部不同位置之間的依賴關係。你可以將自注意力想像成一個句子

2025/05/24

自注意力 (Self-Attention)

2025/05/24

注意力機制 (Attention Mechanism)

這是一個在序列到序列模型 (Seq2Seq) 中非常重要的概念，尤其對於處理長輸入序列來說。它旨在解決基本 Seq2Seq 模型將所有輸入信息壓縮到一個固定長度的上下文向量時可能導致的信息瓶頸問題。你可以將注意力機制想像成讓解碼器在生成輸出序列的每一個詞語時，能夠「專注」於輸入序列中最相關的部分

2025/05/24

注意力機制 (Attention Mechanism)

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15