BERT與GPT: 自監督學習的大型模型

更新 發佈閱讀 3 分鐘

Self-supervised Learning

以往我們的Training當中,在通過model輸出一組Y時,都會有參考比較的label Y',來得知model預測的值與實際值的差距,這被稱為supervised learning。

那在沒有參考的label存在,我們又需要訓練時,就可以使用self-supervised的方式訓練。

訓練方式:

  1. 將我們有的一堆input X,分成兩部分,x'與x''。
  2. 把x'輸入我們的model,得到y'。
  3. 將y'與x''做比較,讓兩者的差距盡可能地減少。

*self-supervised算是unsupervised的其中一種訓練方法。


我們可以使用BERT做Masking Input舉例:

  1. 假設我們原本要輸入台灣大學四個字。
  2. 我們將”灣” 這個字MASK住或者隨機替換成其他字
  3. 接著通過BERT的Transformer Encoder,這時會出現一組sequence輸出
  4. 將原本MASK住或者替換掉的字輸出的結果經過Linear與softmax,我們會得到一組分類結果
  5. 這個結果與”灣”字越接近,就是我們訓練的目標。(訓練Linear與BERT)

那其實將BERT進行Masking Input填空題的過程,其實就是在做pre-train。

神奇的是,之後只要再搭配需要進行任務的label調整(fine-tune),就能進行其他種與填空題無關的任務(downstream)。

raw-image


Fine-Tune實例1-判斷句子本身是正面還負面

  1. 首先,我們把已經Pre-trained過的BERT拿來當作model。
  2. 接著額外加上一個CLS當作輸入。
  3. 在CLS的輸出後面再加上一個Linear 進行另外一個訓練。
  4. 那我們的目標是透過調整Linear的參數,讓CLS的output可以與label越接近越好。
  5. 透過這樣的方式會比從頭隨機訓練BERT與Linear的參數還要好得多。

*CLS是特殊符號,與原有的句子無關,目標是讓CLS再經過Linear之後可以判斷是正面還是負面。

raw-image


為甚麼BERT訓練方式有用?

因為BERT本身就是Transformer,在透過填空題Pre-trained之後,學會觀察輸入的sequence文字的上下文關係。

訓練的結果就能判斷其分別,像是輸入文字,”吃蘋果”與”蘋果電腦”,”蘋”這個字從BERT中就會輸出不同的向量,因為它能夠透過上下文判定”蘋”這個字的意涵不同。

→ 但這部分還需要考證,到底是為甚麼有用。


GPT

那另外一個大型模型就是GPT,它的原理就是想辦法透過前一個字的輸出預測下一個token

假設我們要輸入的是"台灣大學”

  1. 給它BOS這個token,GPT會輸出一個embaded
  2. 接著我們利用這個embaded 經過linear預測下一個應該要輸出的值是甚麼
  3. 找到與”台”字越接近的答案越好
  4. 以此重複上面三個步驟,就能輸出一連串的文字。
  5. 只要讓GPT不斷地預測下一個token,就能產生完整的文章,具有生成的能力。
raw-image


實例:假設我們要GPT進行翻譯,我們可以使用In-context Learning

我們可以透過即時的交代我們要的核心主題讓GPT進行訓練。

接著給它一些實際的例子,再請他依樣畫葫蘆,翻譯我們要的問題。

(這一點應該可以套用在chat-GPT上?!)

*Few-shot: 給它幾個例子

*one-shot: 只給他一個例子

*zero-shot: 不給它例子

raw-image


那以上就是簡單介紹的self-supervised learning大型模型BERT, GPT。

留言
avatar-img
留言分享你的想法!
avatar-img
dab戴伯的沙龍
1會員
37內容數
dab戴伯的沙龍的其他內容
2024/09/03
*本文章為參考李弘毅2021年機器學習課程後的筆記。 在訓練模型的時候,常常會遇到訓練上的問題,像是Loss值太大,或是Test出來的結果不如預期,但我們又不知道模型中到底發生了甚麼事,就跟黑盒子一樣。 因此,感謝李弘毅教授傳授了一套SOP來幫助我們判斷模型是哪裡出了問題,應該要怎麼解決!!
Thumbnail
2024/09/03
*本文章為參考李弘毅2021年機器學習課程後的筆記。 在訓練模型的時候,常常會遇到訓練上的問題,像是Loss值太大,或是Test出來的結果不如預期,但我們又不知道模型中到底發生了甚麼事,就跟黑盒子一樣。 因此,感謝李弘毅教授傳授了一套SOP來幫助我們判斷模型是哪裡出了問題,應該要怎麼解決!!
Thumbnail
2024/05/15
這篇文章探討了生成式對抗網路中機率分佈的使用與相關的訓練方式,包括Generator不同的點、Distriminator的訓練過程、生成圖片的條件設定等。此外,也提到了GAN訓練的困難與解決方式以及不同的learning方式。文章內容豐富且詳細,涵蓋了GAN的各個相關面向。
Thumbnail
2024/05/15
這篇文章探討了生成式對抗網路中機率分佈的使用與相關的訓練方式,包括Generator不同的點、Distriminator的訓練過程、生成圖片的條件設定等。此外,也提到了GAN訓練的困難與解決方式以及不同的learning方式。文章內容豐富且詳細,涵蓋了GAN的各個相關面向。
Thumbnail
2024/05/13
本文介紹了Transformer中的Encoder Decoder與Cross Attention的運作方式以及的應用。涉及self-attention、autoRegressive Decoder、Non-AutoRegressive Decoder、Cross Attention等概念。
2024/05/13
本文介紹了Transformer中的Encoder Decoder與Cross Attention的運作方式以及的應用。涉及self-attention、autoRegressive Decoder、Non-AutoRegressive Decoder、Cross Attention等概念。
看更多
你可能也想看
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
自動化思考(Automatic Thinking)是心理學中的一個概念,它指的是人們在日常生活中進行的快速、無意識和自動的「思路-反應」捷徑。
Thumbnail
自動化思考(Automatic Thinking)是心理學中的一個概念,它指的是人們在日常生活中進行的快速、無意識和自動的「思路-反應」捷徑。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹自我監督學習的概念和訓練方式,以BERT和GPT為例,深入探討Masking Input及Fine-Tune的實際操作和可應用性。
Thumbnail
本文介紹自我監督學習的概念和訓練方式,以BERT和GPT為例,深入探討Masking Input及Fine-Tune的實際操作和可應用性。
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News