我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
Llama 2 可應用於翻譯、聊天、問答、摘要、創意寫作等多種用途,訪問權限需要通過 Meta Llama 網站取得:https://ai.meta.com/resources/models-and-libraries/llama-downloads/
Llama 2 與 Llama 1 的兩個主要區別,可概括如下:
- 上下文長度從 2048 個標記增加到 4096 個標記,這是 Transformer 模型的一項關鍵功能,可使注意力層能夠處理文本中的長期依賴關係
- 多頭注意力將注意力計算分成多個頭部,每個頭部關注序列中的不同部分,然後將這些頭部的結果結合起來生成單一的注意力權重,然而,這對記憶體的需求較高,因為每個頭部都需要在記憶體中存儲 Keys 和 Values


























