付費限定

三分鐘內由上帝視角理解LoRA，讓大模型成為達文西的秘訣

無限智慧學院

發佈於人工智慧宇宙

更新於 2024/12/01發佈於 2023/12/02閱讀時間約 4 分鐘

未來不管是Diffuser還是LLM的微調，都離不開LoRA這項技術，充分理解LoRA的本質是甚麼，CP值特別高。這項技術的理念其實在人工智慧領域行之有年，只是普遍沒有響亮的名字與非常痛的應用場合，在大模型參數量暴增的時刻，重要性被大幅凸顯出來。

降低參數量的手法:

一個矩陣最大的Rank(獨立向量個數)，會取決於矩陣長與寬的最小值，也是獨立的特徵向量的最大總數，想要大幅度的減少矩陣大小，降低參數量，最簡單的方法就是減少矩陣的Rank數目，如下圖所示:

業界行之有年的參數縮減架構，原本的參數量500x500 = 25萬，降低Rank到100以後，只需要12萬個參數，Rank越小，需要調整的參數量越少

業界行之有年的參數縮減架構，原本的參數量500x500 = 25萬，降低Rank到100以後，只需要12萬個參數，Rank越小，需要調整的參數量越少

那該如何決定參數可以減少多少呢? Rank數取決於特徵值的大小，特徵值越大，特徵向量越重要，如下圖所示，滿Rank=20的矩陣會有約20%，4個Rank的重要性會占整體80%，這滿足了大數80/20法則，在一個訓練取得優秀成果的Model都會很自然地出現這個特性。如果要抓住Model整體的精神宗旨，只要抓住20%，也就是4個Rank的量，這樣就能節省非常多的參數，代價是會損失一些細部的模型理解能力。

raw-image

LoRA的上帝視角:

LoRA (Low-Rank Adaptation of Large Language Models) 可以看成是超級大模型的外掛程式，做微調的時候，可以保持原模型不變，外掛分支，如下圖所示的架構:

raw-image

以行動支持創作者！付費即可解鎖

本篇內容共 1983 字、0 則留言，僅發佈於人工智慧宇宙你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

#AI基礎知識

無限智慧學院的沙龍人工智慧宇宙AI基礎知識

留言

留言分享你的想法！

無限智慧學院的沙龍

95會員

128內容數

帶你用上帝視角，針對市面上具有高度價值的影片/論文/書籍，用東方取象，與西方邏輯辯證的角度同時出發，跟著我一起來探討宇宙萬事萬物的本質，隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷，近期對於人工智慧，東方易經，西方辯證邏輯，還有佛法向內求有深度興趣。

無限智慧學院的沙龍的其他內容

2023/11/06

三分鐘搞懂語言模型能力指標，Perplexity (困惑度)

如何評量一個大型語言模型有學到東西? 其中一個常用指標就是Perplexity(困惑度)。由於困惑度被大量論文引用，學習CP值很高，所以寫專文介紹。

2023/11/06

三分鐘搞懂語言模型能力指標，Perplexity (困惑度)

如何評量一個大型語言模型有學到東西? 其中一個常用指標就是Perplexity(困惑度)。由於困惑度被大量論文引用，學習CP值很高，所以寫專文介紹。

2023/11/02

從模型參數量與映射觀點出發，論證宇宙熱寂與大爆炸無限閉環假說

根據熱力學熵增鐵律，多數人認為宇宙會最終會進入熱寂(亂度散度最大化)，然後死去，但事實或許不然，一年有四季，日昇日落，大自然注定是生生不息，循環往復的，有鑑於近來大量閱讀AI關於模型與映射的概念，突然靈光乍現，想出了一套能讓宇宙生生不息的假說，讓我們一起來逐步論證!

2023/11/02

從模型參數量與映射觀點出發，論證宇宙熱寂與大爆炸無限閉環假說

根據熱力學熵增鐵律，多數人認為宇宙會最終會進入熱寂(亂度散度最大化)，然後死去，但事實或許不然，一年有四季，日昇日落，大自然注定是生生不息，循環往復的，有鑑於近來大量閱讀AI關於模型與映射的概念，突然靈光乍現，想出了一套能讓宇宙生生不息的假說，讓我們一起來逐步論證!

2023/11/01

三分鐘內由上帝視角理解Positional Encoding

相信有不少人在剛接觸Attention is all you need這篇論文的時候，最感到困惑的就是Positional Encoding，知道公式長怎樣，不外乎就是Cosine / Sine，但始終無法直搗黃龍，理解背後的道理，本篇文提供各種觀點，讓你三分鐘內搞懂!

2023/11/01

三分鐘內由上帝視角理解Positional Encoding

相信有不少人在剛接觸Attention is all you need這篇論文的時候，最感到困惑的就是Positional Encoding，知道公式長怎樣，不外乎就是Cosine / Sine，但始終無法直搗黃龍，理解背後的道理，本篇文提供各種觀點，讓你三分鐘內搞懂!

你可能也想看

Dr HI的眼科沙龍

光的選擇，就是視力的選擇— Philips 飛利浦 A5 軒博全光譜智能LED護眼檯燈

大家好，我是一名眼科醫師，也是一位孩子的媽身為眼科醫師的我，我知道視力發展對孩子來說有多關鍵。每到開學季時，診間便充斥著許多憂心忡忡的家屬。近年來看診中，兒童提早近視、眼睛疲勞的案例明顯增加，除了3C使用過度，最常被忽略的，就是照明品質。然而作為一位媽媽，孩子能在安全、舒適的環境

#momo購物網#Philips飛利浦#軒博

2025/04/30

Dr HI的眼科沙龍

光的選擇，就是視力的選擇— Philips 飛利浦 A5 軒博全光譜智能LED護眼檯燈

大家好，我是一名眼科醫師，也是一位孩子的媽身為眼科醫師的我，我知道視力發展對孩子來說有多關鍵。每到開學季時，診間便充斥著許多憂心忡忡的家屬。近年來看診中，兒童提早近視、眼睛疲勞的案例明顯增加，除了3C使用過度，最常被忽略的，就是照明品質。然而作為一位媽媽，孩子能在安全、舒適的環境

#momo購物網#Philips飛利浦#軒博

2025/04/30

逗點的沙龍

去日本自助旅行要帶多少日幣現金？最新經驗談

提供一條簡單公式、一套盤點思路，幫助你快速算出去日本自助旅遊需要準備多少日幣現金！

#日本#去日本旅遊要帶多少現金#日本自助旅行現金

2024/05/27

逗點的沙龍

去日本自助旅行要帶多少日幣現金？最新經驗談

提供一條簡單公式、一套盤點思路，幫助你快速算出去日本自助旅遊需要準備多少日幣現金！

#日本#去日本旅遊要帶多少現金#日本自助旅行現金

2024/05/27

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 127 中提及： Transformer 的關鍵參數為：原始 Transformer 模型中，左圖的 N = 6 原始 Tran

#AI#ai#PromptEngineering

2024/08/12

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 127 中提及： Transformer 的關鍵參數為：原始 Transformer 模型中，左圖的 N = 6 原始 Tran

#AI#ai#PromptEngineering

2024/08/12

Learn AI 不 BI

AI說書 - 從0開始 - 127 | BERT 和 Transformer 模型比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容，我們拿 Encoder 出來看：幾點注意如下： BERT 模型使用 M

#AI#ai#PromptEngineering

2024/08/11

Learn AI 不 BI

AI說書 - 從0開始 - 127 | BERT 和 Transformer 模型比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容，我們拿 Encoder 出來看：幾點注意如下： BERT 模型使用 M

#AI#ai#PromptEngineering

2024/08/11

Learn AI 不 BI

AI說書 - 從0開始 - 116 | Google Trax 進行推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型，並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing，現

#AI#ai#PromptEngineering

2024/08/06

Learn AI 不 BI

AI說書 - 從0開始 - 116 | Google Trax 進行推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型，並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing，現

#AI#ai#PromptEngineering

2024/08/06

Learn AI 不 BI

AI說書 - 從0開始 - 95

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA)，其核心思想為：如果該句子在語

#AI#ai#PromptEngineering

2024/07/18

Learn AI 不 BI

AI說書 - 從0開始 - 95

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA)，其核心思想為：如果該句子在語

#AI#ai#PromptEngineering

2024/07/18

Learn AI 不 BI

AI說書 - 從0開始 - 79

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。如 AI說書 - 從0開始 - 78 所述，經過 AI說書 - 從0開始 - 74 到目前為止的實驗，應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往

#AI#ai#PromptEngineering

2024/07/08

Learn AI 不 BI

AI說書 - 從0開始 - 79

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。如 AI說書 - 從0開始 - 78 所述，經過 AI說書 - 從0開始 - 74 到目前為止的實驗，應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往

#AI#ai#PromptEngineering

2024/07/08

Learn AI 不 BI

AI說書 - 從0開始 - 77

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 76 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 77

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 76 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 76

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 75 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 76

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 75 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Marcos的方格子

大型語言模型常用的提詞框架 | Coursera 課程回顧(下)

大型語言模型（Large Language Model，LLM）是一項人工智慧技術，其目的在於理解和生成人類語言，可將其想像成一種高階的「文字預測機器」，然而，它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外，今天我們會介紹使用 LLM 的框架。

#PromptPattern#LLM#ChatGPT

2024/03/09

Marcos的方格子

大型語言模型常用的提詞框架 | Coursera 課程回顧(下)

大型語言模型（Large Language Model，LLM）是一項人工智慧技術，其目的在於理解和生成人類語言，可將其想像成一種高階的「文字預測機器」，然而，它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外，今天我們會介紹使用 LLM 的框架。

#PromptPattern#LLM#ChatGPT

2024/03/09

無限智慧學院的沙龍

三分鐘內由上帝視角理解LoRA，讓大模型成為達文西的秘訣

未來不管是Diffuser還是LLM的微調，都離不開LoRA這項技術，充分理解LoRA的本質是甚麼，CP值特別高。這項技術的理念其實在人工智慧領域行之有年，只是普遍沒有響亮的名字與非常痛的應用場合，在大模型參數量暴增的時刻，重要性被大幅凸顯出來。

#LoRA#LowRank#finetune

2023/12/02

無限智慧學院的沙龍

三分鐘內由上帝視角理解LoRA，讓大模型成為達文西的秘訣

未來不管是Diffuser還是LLM的微調，都離不開LoRA這項技術，充分理解LoRA的本質是甚麼，CP值特別高。這項技術的理念其實在人工智慧領域行之有年，只是普遍沒有響亮的名字與非常痛的應用場合，在大模型參數量暴增的時刻，重要性被大幅凸顯出來。

#LoRA#LowRank#finetune

2023/12/02

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News