讓Mistral 7B搞定長序列128K (e.g.雜誌)，使用YaRN插值改良手法

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

2024/08/13

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

2024/08/13

AI說書 - 從0開始 - 91

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 87 說：Wang 等人 2019 年的論文，提供了合理答案的選擇 (Choice of Plausible Answers, COP

2024/07/15

AI說書 - 從0開始 - 91

2024/07/15

AI說書 - 從0開始 - 13

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 6中說當Context長度是n，且每個字用d維度的向量表示時有以下結論： Attention Layer的複雜度是O(n^2 *

2024/06/12

AI說書 - 從0開始 - 13

2024/06/12

AI說書 - 從0開始 - 12

2024/06/12

AI說書 - 從0開始 - 12

2024/06/12

AI說書 - 從0開始 - 9

2024/06/09

AI說書 - 從0開始 - 9

2024/06/09

需時間驗證的Transformer挑戰者，Mamba (Albert Gu & Tri Dao)

本篇文章為大家導讀近日火熱的Mamba Paper，新聞標題說它是Transformer的繼任者，是否真是如此? 讓我們一起一探究竟，本文著重介紹論文前半部分。

#Mamba#FlashAttention#SSMs

2023/12/12

需時間驗證的Transformer挑戰者，Mamba (Albert Gu & Tri Dao)

本篇文章為大家導讀近日火熱的Mamba Paper，新聞標題說它是Transformer的繼任者，是否真是如此? 讓我們一起一探究竟，本文著重介紹論文前半部分。

#Mamba#FlashAttention#SSMs

2023/12/12

三分鐘內由上帝視角理解LoRA，讓大模型成為達文西的秘訣

未來不管是Diffuser還是LLM的微調，都離不開LoRA這項技術，充分理解LoRA的本質是甚麼，CP值特別高。這項技術的理念其實在人工智慧領域行之有年，只是普遍沒有響亮的名字與非常痛的應用場合，在大模型參數量暴增的時刻，重要性被大幅凸顯出來。

#LoRA#LowRank#finetune

2023/12/02

三分鐘內由上帝視角理解LoRA，讓大模型成為達文西的秘訣

#LoRA#LowRank#finetune

2023/12/02

開啟一切可能性的鑰匙，8K Text Embedding Model

要檢查兩段長篇文字，內容是否雷同，長久以來困擾著大家，沒有好的嵌入模型，會耗費大量人力，需要對長篇文檔進行人工閱讀然後人工分類。本文除了展示如何能完美的解決這個痛點以外，也提供一些延伸應用思路，學習CP值很高。期待你能從本文取得許多新的應用思路與應用潛力！

#TextEmbedding#AI推薦系統#阿斯拉強化學習

2023/10/31

開啟一切可能性的鑰匙，8K Text Embedding Model

#TextEmbedding#AI推薦系統#阿斯拉強化學習

2023/10/31

發揮以小搏大的精神，直接蒸餾法訓練Mistral 7B

為了使小模型取得大模型的回答水平這篇論文提出了三招，"大幅度"提升Mistral 7B模型的回答準確率如果有想要把LLM微調好的人，一定不能錯過這篇

#科技力#Mistral#GPT-4

2023/10/29