Learn AI 不 BI

AI說書 - 從0開始 - 161 | RoBERTa 模型背景

發佈於三分鐘學AI

更新於 2024/09/01發佈於 2024/09/01閱讀時間約 1 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

BERT (Bidirectional Encoder Representations from Transformers) 模型是 Google 2018 年提出的模型，而 RoBERTa (Robustly Optimized BERT Pretraining Approach) 模型是 BERT 的進階版，由 Meta 於 2019 年提出
RoBERTa 不使用 WordPiece Tokenization，而是使用 Byte-Pair Encoding (BPE)
本章節要介紹的模型是 KantaiBERT，是一種 BERT 模型的變形，是 RoBERTa 的縮小版，其使用 Masked Language Modeling (MLM) 做訓練，它的概念就是克漏字填空，詳如 AI說書 - 從0開始 - 130 所述
我們使用的 KantaiBERT 模型有 83504416 個參數，包含 6 Layers 與 12 Heads (蒸餾版 BERT, DistilBERT)，與當今大型語言模型相比，尺寸偏小，但好處是訓練過程可以加速看到成果，此外如果模型是要放在智慧型手機中，那麼蒸餾版就是一種考慮選項

#PromptEngineering

#chatgpt怎麼用

Learn AI 不 BI三分鐘學AIAI從0開始-第六章

Learn AI 不 BI

203會員

518內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言

留言分享你的想法！

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

Learn AI 不 BI 的其他內容

AI說書 - 從0開始 - 160 | Pretrain 涵蓋範圍

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。第六章將包含以下重點項目： RoBERTa 與 DistilBERT 模型 Byte-Level Byte-Pair 編碼訓練 Tokenizer 定義模型的

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 159 | Pretrain 模型緣起

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。有時，預訓練模型不會提供您期望的結果，即使預訓練的模型通過微調進行了額外的訓練，它仍然無法按計劃工作，此時，一種方法是透過 Hugging Face 等平台從頭開始預先

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 160 | Pretrain 涵蓋範圍

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。第六章將包含以下重點項目： RoBERTa 與 DistilBERT 模型 Byte-Level Byte-Pair 編碼訓練 Tokenizer 定義模型的

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 159 | Pretrain 模型緣起

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。有時，預訓練模型不會提供您期望的結果，即使預訓練的模型通過微調進行了額外的訓練，它仍然無法按計劃工作，此時，一種方法是透過 Hugging Face 等平台從頭開始預先

#AI #ai #PromptEngineering

你可能也想看

Google News 追蹤

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 129 | BERT 模型兩種訓練方式引言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Bidirectional Encoder Representations from Transformers (BERT) 只有 Encoder Layer，沒有 D

#AI #ai #promptengineering

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 127 中提及： Transformer 的關鍵參數為：原始 Transformer 模型中，左圖的 N = 6 原始 Tran

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 127 | BERT 和 Transformer 模型比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容，我們拿 Encoder 出來看：幾點注意如下： BERT 模型使用 M

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 126 | BERT 引言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。要學習 BERT (Bidirectional Encoder Representations from Transformers) 的架構，需要先複習本書第二章的 A

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 125 | 第五章目錄

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在某些情況下，別人提供的 Pretrained Transformer Model 效果不盡人意，可能會想要自己做 Pretrained Model，但是這會耗費大量運

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 116 | Google Trax 進行推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型，並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing，現

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 115 | Google Trax 載入預訓練權重

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。現在我們來載入預訓練權重，預訓練的權重包含 Transformer 的智慧

#AI #ai #promptengineering

Learn AI 不 BI

AI說書 - 從0開始 - 82

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 21

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 20中，闡述GPT模型的Supervised and Unsupervised觀點，接著一樣引述書籍：Transformers f

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 129 | BERT 模型兩種訓練方式引言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Bidirectional Encoder Representations from Transformers (BERT) 只有 Encoder Layer，沒有 D

#AI #ai #promptengineering

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 127 中提及： Transformer 的關鍵參數為：原始 Transformer 模型中，左圖的 N = 6 原始 Tran

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 127 | BERT 和 Transformer 模型比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容，我們拿 Encoder 出來看：幾點注意如下： BERT 模型使用 M

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 126 | BERT 引言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。要學習 BERT (Bidirectional Encoder Representations from Transformers) 的架構，需要先複習本書第二章的 A

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 125 | 第五章目錄

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在某些情況下，別人提供的 Pretrained Transformer Model 效果不盡人意，可能會想要自己做 Pretrained Model，但是這會耗費大量運

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 116 | Google Trax 進行推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型，並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing，現

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 115 | Google Trax 載入預訓練權重

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。現在我們來載入預訓練權重，預訓練的權重包含 Transformer 的智慧

#AI #ai #promptengineering

Learn AI 不 BI

AI說書 - 從0開始 - 82

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 21

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 20中，闡述GPT模型的Supervised and Unsupervised觀點，接著一樣引述書籍：Transformers f

#AI #ai #PromptEngineering