三分鐘內由上帝視角理解LoRA,讓大模型成為達文西的秘訣

2023/12/02閱讀時間約 4 分鐘

未來不管是Diffuser還是LLM的微調,都離不開LoRA這項技術,充分理解LoRA的本質是甚麼,CP值特別高。這項技術的理念其實在人工智慧領域行之有年,只是普遍沒有響亮的名字與非常痛的應用場合,在大模型參數量暴增的時刻,重要性被大幅凸顯出來。


降低參數量的手法:

一個矩陣最大的Rank(獨立向量個數),會取決於矩陣長與寬的最小值,也是獨立的特徵向量的最大總數,想要大幅度的減少矩陣大小,降低參數量,最簡單的方法就是減少矩陣的Rank數目,如下圖所示:

業界行之有年的參數縮減架構,原本的參數量500x500 = 25萬,降低Rank到100以後,只需要12萬個參數,Rank越小,需要調整的參數量越少

業界行之有年的參數縮減架構,原本的參數量500x500 = 25萬,降低Rank到100以後,只需要12萬個參數,Rank越小,需要調整的參數量越少

那該如何決定參數可以減少多少呢? Rank數取決於特徵值的大小,特徵值越大,特徵向量越重要,如下圖所示,滿Rank=20的矩陣會有約20%,4個Rank的重要性會占整體80%,這滿足了大數80/20法則,在一個訓練取得優秀成果的Model都會很自然地出現這個特性。如果要抓住Model整體的精神宗旨,只要抓住20%,也就是4個Rank的量,這樣就能節省非常多的參數,代價是會損失一些細部的模型理解能力。

raw-image

LoRA的上帝視角:

LoRA (Low-Rank Adaptation of Large Language Models) 可以看成是超級大模型的外掛程式,做微調的時候,可以保持原模型不變,外掛分支,如下圖所示的架構:

raw-image
以行動支持創作者!付費即可解鎖
本篇內容共 1983 字、0 則留言,僅發佈於人工智慧宇宙你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
90會員
126內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言0
查看全部
發表第一個留言支持創作者!