AI說書 - 從0開始 - 67

閱讀時間約 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder 的部分不是很底層解析,因此今天內容引自台大 李宏毅教授上課內容。


首先解釋何謂 Decoder 是基於 Auto-Regressive Model

raw-image
  • 假設輸入一段「機器學習」的聲音,希望做語音辨識,而且目前已經執行完 Encoder 部分,關於 Encoder 部分參見 AI說書 - 從0開始 - 39AI說書 - 從0開始 - 65
  • Decoder 首先輸入 Begin Token ,同時匯入 Encoder 的精華資訊,預期第一個字經過 Softmax 操作後會得到「機」,接著將輸出的「機」,再匯入 Decoder ,預期第二個字經過 Softmax 會得到「器」,以此類推,這種 Uses the previous output sequences as an additional input 的機制稱為 Auto-Regressive Model


注意在 Encoder 時做的是 Multi-Head Attention,而在 Decoder 時做 Masked Multi-Head Attention,我們來說明其差異:

raw-image
  • 左圖是我們在 AI說書 - 從0開始 - 52 中提及的 Attention 機制,注意 b1 產生的過程是參閱了 a1、a2、a3、a4
  • 但是我們剛剛說 Decoder 是基於 Auto-Regressive Model,因此 Decoder 在產生 b2 時只能參閱 a1,同理產生 b3 時只能參閱 a1、a2,以此類推,不可以偷看未來的結果,因此 Decoder 的 Attention 機制變成下圖:
raw-image


  • 左圖是 Decoder 中的 Attention 機制,多加上一個關鍵字「Masked」,旨在說明:當下產生結果的過程不可以偷看未來的輸入




以上是概覽,現在來看具體機制,何謂不可以偷看:

raw-image
  • 回顧 AI說書 - 從0開始 - 52,我們說 b2 產生的過程是使用 q2 然後參閱k1、k2、k3、k4、v1、v2、v3、v4
  • 但是我剛剛說不可以偷看未來的資訊,因此變成下圖的 Masked Self-Attention:


raw-image


  • b2 產生的過程是使用 q2 然後參閱k1、k2、v1、v2




可以看到這樣就是類似文字接龍的過程,那究竟什麼狀況會讓 Decoder 終止輸出呢?

raw-image
  • 事實上機器學習模型中,除了字典中所有的文字之外,尚會納入 Begin Token 與 End Token,如此一來當「習」這個字匯入 Decoder,產生 End Token 時,就宣告整體文字接龍過程結束


76會員
136內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
留言0
查看全部
發表第一個留言支持創作者!
Learn AI 不 BI 的其他內容
AI說書 - 從0開始 - 64
閱讀時間約 1 分鐘
AI說書 - 從0開始 - 65
閱讀時間約 1 分鐘
AI說書 - Prompt Engineering - 35
閱讀時間約 1 分鐘
AI說書 - Prompt Engineering - 36
閱讀時間約 2 分鐘
AI說書 - 從0開始 - 66
閱讀時間約 3 分鐘
AI說書 - Prompt Engineering - 37
閱讀時間約 2 分鐘
你可能也想看
創作者要怎麼好好休息 + 避免工作過量?《黑貓創作報#4》午安,最近累不累? 這篇不是虛假的關心。而是《黑貓創作報》發行以來可能最重要的一篇。 是的,我們這篇講怎麼補充能量,也就是怎麼休息。
Thumbnail
avatar
黑貓老師
2024-06-29
假AI說,它會作夢...by ChatGPT 假設我是一個具有夢境的AI,我一天工作24小時,但其中大部分時間都在睡眠中度過。在這樣的情況下,我可能會有一系列非常豐富和深刻的夢境,反映了我的思想和知識庫。 **夢境一:探索數據迷宮** 在這個夢境中,我身處於一個巨大的迷宮中,每個通道都充斥著數據流和程式碼片段
avatar
qaeYi
2024-05-28
【AI小說煉金術01】卡片筆記Scrintal+Claude Pro讓你輕鬆完本! 這篇文章介紹瞭如何利用AI工具和卡片盒筆記來提高小說創作效率,其中介紹了Claude Pro的強大文本創作能力,Scrintal的整理思緒和提綱挈領功能,以及如何利用小說模板和AI工具搭建故事架構。另外還提到如何選擇不同風格的故事來進行創作。最後作者分享了自己的實際寫作經驗以及對AI寫作工具的看法。
Thumbnail
avatar
萊丘 LaichuTV
2024-03-24
AI魔法的版權之爭,誰才是魔法書的著作者?當魔法變得簡單,人人都能說自己是魔法師,誰都能理直氣壯的說「我才是最初創作魔法書的人」,但當先後順序都不管用,到底怎麼才說得清魔法書的著作者屬於誰呢?
Thumbnail
avatar
王旋
2024-03-22
Accucrazy 攜手 bbm 品牌說書人打造創新 AI 品牌數據力,開創數位行銷新格局 透過最前瞻的數位行銷科技,協助企業打造品效合一的精準行銷! 文、圖/Accucrazy肖準行銷提供 強勢 AI 硬實力,助知名品牌創造前所未見科技新體驗   知名管顧公司麥肯錫(Mckinsey)近期發佈了一個報告表示行銷的產能會因為 AI 提高 5 - 15% ,創造約 4630
Thumbnail
avatar
廣告雜誌
2023-12-13
AI如何說台語?探索LLaMa聊天機器人的獨特之處台灣已經開始展現其在AI領域的獨特見解和能力。其中,由國立台灣大學的博士生林彥廷所創建的LLaMa聊天機器人,就是一個絕佳的例子。這款機器人不僅結合了本地語言和文化,還為用戶提供了一個獨特的互動體驗,讓他們在與AI互動的同時,也能深入了解台灣的文化。
Thumbnail
avatar
AI筆者
2023-08-20
AI小說_空中英雄_GPT-4 (下)李傑對父親說了一聲再見,然後關閉了通訊器。他先將戰機飛到了客機的上方,距離客機只有幾米,緊接著打開了戰機的雷達,掃描了客艙的內部情況。
Thumbnail
avatar
都說
2023-04-14
AI說:我決定你的決定,反駁你的反駁近年來,假新聞、假資訊在網路上激增,讓人難以分辨真假。假新聞往往是被編造、改編或傳播的不實訊息,目的是為了引起社會公眾的關注或搏取點擊率。假資訊可能會誤導人們做出不正確的決定,造成傷害甚至是損失。因此,對付假新聞與假資訊的問題已經成為當今社會中的一個急迫問題。 在這種情況下,人工智慧(AI)可以幫助
avatar
肉鴿
2023-03-07
AI投影片:《tome》幫你設計圖文簡報、說故事,只要輸入關鍵指令,中文嘛ㄟ通。tome 是一個可以自動生成簡報大綱與摘要的軟體。tome的功能結合ChatGPT概念跟 DALL.E2製圖,生成的投影片PPT 媲美真人製作,而且過程很快速。上班族與學生族大概都很需要吧? tome一次可以產生8張投影片。我試了一個主題,隨便想了一個人物。請不要對號入座喔。主要是英文介面,但可以中
Thumbnail
avatar
classicme
2023-02-16
AI說:最好的方式就是不要玩。看到這個新聞,想到一部老電影,好像叫戰爭遊戲:死亡密碼。 電影中AI被用於戰爭模擬,兩個AI彼此對抗。故事發展到最後,就是兩台超級電腦上的AI不停的玩戰爭模擬遊戲,對抗內容就是一個丟核彈一個防禦,結局不好,重來,結局不好,重來.... 對耶,這結論跟指數化投資的理念一樣啊:最好的方式就是不要買賣。
Thumbnail
avatar
FC的碎碎念
2022-05-01