AI說書 - 從0開始 - 88

更新 發佈閱讀 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evaluation) 和 SuperGLUE 等關鍵字間的關係:

  • 任務可以是產生訓練模型的預訓練任務
  • 同樣的任務可以是另一個模型的下游任務,該模型將對其進行微調
  • SuperGLUE 的目標是證明給定的 Natural Language Understanding (NLU) 模型可以透過微調執行多個下游任務
  • 多任務模型是證明 Transformer 思考能力的模型
  • 任何 Transformer 的強大之處在於它能夠使用預訓練模型執行多項任務,然後將其應用於微調的下游任務
  • 原始 Transformer 模型及其變體現在廣泛出現在所有 GLUE 和 SuperGLUE 任務的頂級排名中


回顧 AI說書 - 從0開始 - 87 中說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COPA) 任務,Transformer 必須選擇問題的最合理的答案,資料集提供了前提,Transformer 模型必須找到最合理的答案。


以下繼續介紹 Wang 等人 2019 年的論文所提出的其他任務:


  • Boolean Question Task (BoolQ):BoolQ 是 Boolean 是或否回答任務,SuperGLUE 上定義的資料集包含 15942 個自然發生的範例, train.jsonl 資料集第 3 行的原始樣本包含一段文字、一個問題和答案 (true):
圖片出自書籍:Transformers for Natural Language Processing and Computer Vision, 2024

圖片出自書籍:Transformers for Natural Language Processing and Computer Vision, 2024


  • Commitment Bank (CB):要求 Transformer 模型讀取一個前提,然後檢查基於該前提的假設,例如,假設將證實前提或反駁它,然後,Transformer 必須將假設標記為中性、蘊含或前提的矛盾等,以下範例 77 取自 train.jsonl 訓練資料集:
圖片出自書籍:Transformers for Natural Language Processing and Computer Vision, 2024

圖片出自書籍:Transformers for Natural Language Processing and Computer Vision, 2024


留言
avatar-img
Learn AI 不 BI
249會員
1.2K內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
Learn AI 不 BI的其他內容
2024/07/20
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 73 到 AI說書 - 從0開始 - 96,我們完成書籍:Transformers for Natural Language Proce
2024/07/20
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 73 到 AI說書 - 從0開始 - 96,我們完成書籍:Transformers for Natural Language Proce
2024/07/19
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
2024/07/19
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
2024/07/18
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
2024/07/18
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
看更多
你可能也想看
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
Thumbnail
今天接觸到兩個重點方向,我覺得每個人都可以去嘗試思考,也是我最近在試著去了解更深的主軸: ①提升思維、善用AI工具。 包括接觸商業和產品知識,再用工具加速、更有效達標。 ②自媒體——讓人認識你。 如果要做自媒體,可以先思考目的,比如我的目標是寫作出書,就不需要花太多時間分享生活娛
Thumbnail
今天接觸到兩個重點方向,我覺得每個人都可以去嘗試思考,也是我最近在試著去了解更深的主軸: ①提升思維、善用AI工具。 包括接觸商業和產品知識,再用工具加速、更有效達標。 ②自媒體——讓人認識你。 如果要做自媒體,可以先思考目的,比如我的目標是寫作出書,就不需要花太多時間分享生活娛
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News