AI說書 - 從0開始 - 131 | Next Sentence Prediction 訓練

2024/08/14 更新2024/08/14 發佈閱讀 4 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BERT) 的訓練分為兩種，分別為：

Masked Language Modeling (MLM)
Next Sentence Prediction (NSP)

而我們在 AI說書 - 從0開始 - 130 已經介紹了 Masked Language Modeling (MLM)，今天來介紹 Next Sentence Prediction (NSP)：

在許多下游的 NLP 任務中，它們都是基於兩個句子的關係進行語意理解，這樣的資訊，語言模型其實並沒有辦法有效擷取，因此作者提出了 NSP 這樣的模型訓練，兩個句子 A、B 作為一筆訓練資料，其中 50% 的訓練資料從語料中連貫的兩句子而得，標籤為 IsNext，另外 50% 則隨機給與兩個不連續的句子，標籤為 NotNext。

並且引入兩個額外的 Token，其目的為：

[CLS]：Binary Classification Token 新增到第一個句子 A 的開頭，以預測第二個句子 B 是否位於第一個句子 A 之後，正樣本通常是從資料集中取出的一對連續句子，使用來自不同文件的序列建立負樣本
[SEP]：表示句子 A 結束的分隔標記

舉一個 A 和 B 句子的串接為例，假設原始句子為：「The cat slept on the rug. It likes sleeping all day」，那麼引入 [CLS] 和 [SEP] 的標記後，變成：「[CLS] the cat slept on the rug [SEP] it likes sleep ##ing all day [SEP] 」，這裡 ##ing 的符號和 sleep 分離了，主要是因為採用了 WordPiece Tokenization，這樣可以讓 Tokenizer 運作在比較比較小的 Subword 上。

了解 [CLS] 和 [SEP] 的用途後，把它和 IsNext 以及 NotNext 合併，例子為：

Input = [CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP] → Label = IsNext
Input = [CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight ##less birds [SEP] → Label = NotNext

至於 Input Embedding 的獲得手法為以下三者相加：Token Embedding、Sentence Embedding、Positional Encoding，示意圖如下：

圖片出自書籍：Transformers for Natural Language Processing and Computer Vision, 2024

綜合目前有的素材，整體流程為：

句子被切成 WordPiece Tokens
在 Masked Language Modeling (MLM) 訓練中，[MASK] Token 被隨機置入取代原始文字
在 Next Sentence Prediction (NSP) 訓練中，[CLS] Token 被放置於第一個句子的開頭，以作為 Classification Token
在 Next Sentence Prediction (NSP) 訓練中，[SEP] Token 被放置於第一個句子和第二個句子中間
實現為，將整個輸入序列經過模型，使用模型最後產生的 [CLS] Token，將它傳入一層 Classification Layer 進行矩陣轉換產出維度為 2 × 1 的向量，並且再透過 Softmax 得到 IsNextSequence 的機率

Learn AI 不 BI三分鐘學AIAI從0開始-第五章

留言

Learn AI 不 BI

249會員

1.1K內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2024/08/30

AI說書 - 從0開始 - 156 | 第五章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 125 到 AI說書 - 從0開始 - 155 | 文法判斷介面成果展示，我們完成書籍：Transformers for Natural

2024/08/30

AI說書 - 從0開始 - 156 | 第五章額外閱讀

2024/08/30

AI說書 - 從0開始 - 155 | 文法判斷介面成果展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧一下目前手上有的素材：訓練的必要模組安裝：AI說書 - 從0開始 - 135 載入資料集：AI說書 - 從0開始 - 136 資料集窺探：AI說書 - 從0

2024/08/30

AI說書 - 從0開始 - 155 | 文法判斷介面成果展示

2024/08/29

AI說書 - 從0開始 - 154 | 製作預測文法正確與否的聊天介面

2024/08/29

AI說書 - 從0開始 - 154 | 製作預測文法正確與否的聊天介面

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品，以十段寓言式殘篇，重新拼貼記憶、暴力與美學，並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇：帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略，嘗試解析極權底下不可言說之事，將如何成為可被觀看的公共發聲。

#釀電影#釀評論#藝術評論

2026/01/14

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

#釀電影#釀評論#藝術評論

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

柏林劇團在 2026 北藝嚴選，再次帶來由布萊希特改編的經典劇目《三便士歌劇》（The Threepenny Opera），導演巴里・柯斯基以舞台結構與舞台調度，重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核，藉由沉浸與疏離的辯證，解析此作如何再次照見觀眾自身的位置。

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲．蓋柏樂》的詮釋，從劇本歷史、聲響與舞臺設計，到演員的主體創作方法，探討此版本如何讓經典劇作在當代劇場語境下煥發新生，滿足現代觀眾的觀看慾望。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14