我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
延續AI說書 - 從0開始 - 2,ChatGPT的根基是一種名為Transformer的Foundation Model,而Transformer依據AI說書 - 從0開始 - 3,知道核心是「Attention機制」。
因此我們來闡述「Attention機制」的想法是什麼,首先舉個例子,給一個句子如:Jay likes oranges in the morning but not in the evening,這時候想,單一個字oranges要怎麼幫助我判斷整個句子的文意呢?
沒錯,應該要思考「字與字之間的配對關係」才有辦法對整個句子有了解,例如:
如此一來,給定一段句子 (ML世界裡面稱Context),針對每個字,我都和別的字執行一次配對關係的分析,也因為都是執行一次配對分析,這和AI說書 - 從0開始 - 3中說的O(1)產生連結。