BERT與GPT: 自監督學習的大型模型

閱讀時間約 3 分鐘

Self-supervised Learning

以往我們的Training當中,在通過model輸出一組Y時,都會有參考比較的label Y',來得知model預測的值與實際值的差距,這被稱為supervised learning。

那在沒有參考的label存在,我們又需要訓練時,就可以使用self-supervised的方式訓練。

訓練方式:

  1. 將我們有的一堆input X,分成兩部分,x'與x''。
  2. 把x'輸入我們的model,得到y'。
  3. 將y'與x''做比較,讓兩者的差距盡可能地減少。

*self-supervised算是unsupervised的其中一種訓練方法。


我們可以使用BERT做Masking Input舉例:

  1. 假設我們原本要輸入台灣大學四個字。
  2. 我們將”灣” 這個字MASK住或者隨機替換成其他字
  3. 接著通過BERT的Transformer Encoder,這時會出現一組sequence輸出
  4. 將原本MASK住或者替換掉的字輸出的結果經過Linear與softmax,我們會得到一組分類結果
  5. 這個結果與”灣”字越接近,就是我們訓練的目標。(訓練Linear與BERT)

那其實將BERT進行Masking Input填空題的過程,其實就是在做pre-train。

神奇的是,之後只要再搭配需要進行任務的label調整(fine-tune),就能進行其他種與填空題無關的任務(downstream)。

raw-image


Fine-Tune實例1-判斷句子本身是正面還負面

  1. 首先,我們把已經Pre-trained過的BERT拿來當作model。
  2. 接著額外加上一個CLS當作輸入。
  3. 在CLS的輸出後面再加上一個Linear 進行另外一個訓練。
  4. 那我們的目標是透過調整Linear的參數,讓CLS的output可以與label越接近越好。
  5. 透過這樣的方式會比從頭隨機訓練BERT與Linear的參數還要好得多。

*CLS是特殊符號,與原有的句子無關,目標是讓CLS再經過Linear之後可以判斷是正面還是負面。

raw-image


為甚麼BERT訓練方式有用?

因為BERT本身就是Transformer,在透過填空題Pre-trained之後,學會觀察輸入的sequence文字的上下文關係。

訓練的結果就能判斷其分別,像是輸入文字,”吃蘋果”與”蘋果電腦”,”蘋”這個字從BERT中就會輸出不同的向量,因為它能夠透過上下文判定”蘋”這個字的意涵不同。

→ 但這部分還需要考證,到底是為甚麼有用。


GPT

那另外一個大型模型就是GPT,它的原理就是想辦法透過前一個字的輸出預測下一個token

假設我們要輸入的是"台灣大學”

  1. 給它BOS這個token,GPT會輸出一個embaded
  2. 接著我們利用這個embaded 經過linear預測下一個應該要輸出的值是甚麼
  3. 找到與”台”字越接近的答案越好
  4. 以此重複上面三個步驟,就能輸出一連串的文字。
  5. 只要讓GPT不斷地預測下一個token,就能產生完整的文章,具有生成的能力。
raw-image


實例:假設我們要GPT進行翻譯,我們可以使用In-context Learning

我們可以透過即時的交代我們要的核心主題讓GPT進行訓練。

接著給它一些實際的例子,再請他依樣畫葫蘆,翻譯我們要的問題。

(這一點應該可以套用在chat-GPT上?!)

*Few-shot: 給它幾個例子

*one-shot: 只給他一個例子

*zero-shot: 不給它例子

raw-image


那以上就是簡單介紹的self-supervised learning大型模型BERT, GPT。

1會員
37內容數
留言0
查看全部
發表第一個留言支持創作者!
dab戴伯的沙龍 的其他內容
這篇文章探討了生成式對抗網路中機率分佈的使用與相關的訓練方式,包括Generator不同的點、Distriminator的訓練過程、生成圖片的條件設定等。此外,也提到了GAN訓練的困難與解決方式以及不同的learning方式。文章內容豐富且詳細,涵蓋了GAN的各個相關面向。
本文介紹了Transformer中的Encoder Decoder與Cross Attention的運作方式以及的應用。涉及self-attention、autoRegressive Decoder、Non-AutoRegressive Decoder、Cross Attention等概念。
本文介紹了self-attention在處理不固定大小輸入值時的應用,並討論瞭如何計算self-attention以及transformer中的multi-head self-attention。此外,文章還探討了在語音辨識和圖片處理中使用self-attention的方法,以及與CNN的比較。
卷積神經網路(CNN)是一種專門用於影像相關應用的神經網路。本文介紹了CNN在影像辨識中的應用,包括圖片的組成、Receptive Field、Parameter Sharing、以及Pooling等技術。通過本文,讀者將瞭解CNN在影像辨識領域的優勢和運作原理。
本文介紹了在深度學習中使用Batch Normalization來解決error surface複雜性的問題。通過特徵歸一化來加速收斂速度和訓練順利程度。同時,也提到了在測試階段使用moving average計算平均值和標準差的方法。
瞭解如何透過Regression實作Classification,使用one-hot vector表示不同的類別,並透過乘上不同的Weight和加上不同的bias來得到三個數值形成向量。同時通過softmax的方式得到最終的y'值,並探討使用Cross-entropy來計算類別的loss。
這篇文章探討了生成式對抗網路中機率分佈的使用與相關的訓練方式,包括Generator不同的點、Distriminator的訓練過程、生成圖片的條件設定等。此外,也提到了GAN訓練的困難與解決方式以及不同的learning方式。文章內容豐富且詳細,涵蓋了GAN的各個相關面向。
本文介紹了Transformer中的Encoder Decoder與Cross Attention的運作方式以及的應用。涉及self-attention、autoRegressive Decoder、Non-AutoRegressive Decoder、Cross Attention等概念。
本文介紹了self-attention在處理不固定大小輸入值時的應用,並討論瞭如何計算self-attention以及transformer中的multi-head self-attention。此外,文章還探討了在語音辨識和圖片處理中使用self-attention的方法,以及與CNN的比較。
卷積神經網路(CNN)是一種專門用於影像相關應用的神經網路。本文介紹了CNN在影像辨識中的應用,包括圖片的組成、Receptive Field、Parameter Sharing、以及Pooling等技術。通過本文,讀者將瞭解CNN在影像辨識領域的優勢和運作原理。
本文介紹了在深度學習中使用Batch Normalization來解決error surface複雜性的問題。通過特徵歸一化來加速收斂速度和訓練順利程度。同時,也提到了在測試階段使用moving average計算平均值和標準差的方法。
瞭解如何透過Regression實作Classification,使用one-hot vector表示不同的類別,並透過乘上不同的Weight和加上不同的bias來得到三個數值形成向量。同時通過softmax的方式得到最終的y'值,並探討使用Cross-entropy來計算類別的loss。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
在上一期「LLM 005|大語言模型是如何利用Transformer理解語言的?」我們提到,Transformer是大語言模型理解語言的關鍵。 而Transformer架構兩個主要的後代是BERT以及GPT。 BERT是bidirectional encoder representati
一口濃香巧克力,淚眼朦朧,相知相惜,義氣干雲 她反覆的品嚐甜,沖淡了她眼淚的苦,她療癒著自己。 總反覆著品嚐著彼此香水味。
雨 雨是什么?在这常年如一日,在这被烈日灼烧永不停息的国土,雨是一个退烧药,也是一个园丁,灌溉着生物,也灌溉了我。雨,作为一个经常遇见的事物,它早已融入我的生活,成为我最喜爱的美景。 早晨的雨,是凉快的,植物上的露珠与雨水混合在一起 ,足以让这些植物乐的随风伴舞。早晨七点半之后,太阳总会无尽地照
Thumbnail
當雲層低垂,天空灰濛, 世界披上了一層濕潤的薄紗。 雨滴輕敲窗邊,節奏輕柔, 如同天籟之音,撫慰心靈的疲憊。 街道閃爍,反射著燈光的舞蹈, 每一滴雨都是夜的繽紛節拍。 行人匆匆,傘下低頭,躲避著天空的淚, 而我,靜靜地站在這裡,讓思緒在雨中遨遊。 樹葉沐浴在這潤澤之中,
Thumbnail
全葡萄牙最古老的書店,成立於1732年的貝爾坦德書店。
Thumbnail
花與花間, 樹與樹語。 筆與藍天, 墨與當下。 你與世界, 我與幸福。 2023.12.09 19:21
Thumbnail
這次來測試新款Callaway Big Bertha B21木桿。這是在2021下半年推出,從外型看起來是走易打,高容錯的風格。桿頭外型是御飯糰的3角形設計。這類桿頭風格就是高MOI,可以讓桿頭更快回正,桿面觸球可以比較方正。所以這類產品就是以新手、假日球友和高差點為主。
Thumbnail
想到媒體出版業第一個都會想到美國,但攤開媒體出版業的全球版圖來看,你一定會一直看到貝圖斯曼Bertelsmann這個名字:來自德國,超過百年歷史的媒體出版大亨 最令人印象深刻的,就是貝圖斯曼旗下的企鵝藍燈書屋曾以6000萬美金的版稅,拿下歐巴馬夫婦的回憶錄出版權
Thumbnail
最近因為武漢肺炎進行了一些奇怪的研究,見證了同事如何在短時間內建構出強大的 model 可以在論文海裡面找出一些很不錯的內容來回答一些專業的問題,決定開始抽出時間來努力嘗試駕馭這項強大的武器
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
在上一期「LLM 005|大語言模型是如何利用Transformer理解語言的?」我們提到,Transformer是大語言模型理解語言的關鍵。 而Transformer架構兩個主要的後代是BERT以及GPT。 BERT是bidirectional encoder representati
一口濃香巧克力,淚眼朦朧,相知相惜,義氣干雲 她反覆的品嚐甜,沖淡了她眼淚的苦,她療癒著自己。 總反覆著品嚐著彼此香水味。
雨 雨是什么?在这常年如一日,在这被烈日灼烧永不停息的国土,雨是一个退烧药,也是一个园丁,灌溉着生物,也灌溉了我。雨,作为一个经常遇见的事物,它早已融入我的生活,成为我最喜爱的美景。 早晨的雨,是凉快的,植物上的露珠与雨水混合在一起 ,足以让这些植物乐的随风伴舞。早晨七点半之后,太阳总会无尽地照
Thumbnail
當雲層低垂,天空灰濛, 世界披上了一層濕潤的薄紗。 雨滴輕敲窗邊,節奏輕柔, 如同天籟之音,撫慰心靈的疲憊。 街道閃爍,反射著燈光的舞蹈, 每一滴雨都是夜的繽紛節拍。 行人匆匆,傘下低頭,躲避著天空的淚, 而我,靜靜地站在這裡,讓思緒在雨中遨遊。 樹葉沐浴在這潤澤之中,
Thumbnail
全葡萄牙最古老的書店,成立於1732年的貝爾坦德書店。
Thumbnail
花與花間, 樹與樹語。 筆與藍天, 墨與當下。 你與世界, 我與幸福。 2023.12.09 19:21
Thumbnail
這次來測試新款Callaway Big Bertha B21木桿。這是在2021下半年推出,從外型看起來是走易打,高容錯的風格。桿頭外型是御飯糰的3角形設計。這類桿頭風格就是高MOI,可以讓桿頭更快回正,桿面觸球可以比較方正。所以這類產品就是以新手、假日球友和高差點為主。
Thumbnail
想到媒體出版業第一個都會想到美國,但攤開媒體出版業的全球版圖來看,你一定會一直看到貝圖斯曼Bertelsmann這個名字:來自德國,超過百年歷史的媒體出版大亨 最令人印象深刻的,就是貝圖斯曼旗下的企鵝藍燈書屋曾以6000萬美金的版稅,拿下歐巴馬夫婦的回憶錄出版權
Thumbnail
最近因為武漢肺炎進行了一些奇怪的研究,見證了同事如何在短時間內建構出強大的 model 可以在論文海裡面找出一些很不錯的內容來回答一些專業的問題,決定開始抽出時間來努力嘗試駕馭這項強大的武器