我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
2017 年 12 月,Google Brain 和 Google Research 發表了 Vaswani 等人的開創性論文《Attention Is All You Need》。 Transformer 誕生了, Transformer 的性能優於現有最先進的 NLP 模型, Transformer 的訓練速度比以前的架構更快,並獲得了更高的評估結果。因此, Transformer 已成為 NLP 的關鍵組成部分。
自 2017 年以來,OpenAI 的 ChatGPT 和 GPT-4、Google 的 PaLM 和 LaMBDA 等 Transformer 模型以及其他大型語言模型(LLM)相繼出現,然而,這只是開始!要了解 Attention Heads 如何運作才能加入人工智慧專家的新時代。
Transformer Attention Head 的想法是消除循環神經網路特徵,接下來,我們將揭開 Vaswani 等人所描述的原始 Transformer 模型的面紗,並檢視其架構的主要組成部分,然後,我們將探索迷人的 Attention 世界,並說明 Transformer 的關鍵組件。