微調Chat GPT模型 - LoRA

LearnAI

發佈於機率圖模型

更新於 2024/05/13發佈於 2024/05/12閱讀時間約 2 分鐘

大家在跟Chat GPT互動的時候，會不會覺得常常雞同鴨講

我們梳理了一些提升Chat GPT回答能力的作法 ChatGPT回答不是你要的怎麼辦？

我們也實作了當中的一種方法，叫做RAG於自己做免錢Chat GPT吧

這篇文章，我們談談其他技巧，稱為「透過LoRA執行Fine Tuning」

LoRA簡介

Microsoft 團隊提出的Low Rank Adaption (LoRA)是一種有效的參數Fine Tuning技術，可幫助改善大型語言模型 (LLM)在特定任務上的效能表現，並且具有較低的運算和儲存成本。它旨在透過降低模型參數的秩（Rank）來減少模型的複雜度，從而提高模型的一般化能力和適應性。

LoRA圖示說明

既然 LLM 適用於不同任務，那代表模型對於不同任務會有不同的神經元/特徵來處理這件事，如果我們能從眾多特徵中找到適合那個下游任務的特徵，並對他們的特徵進行強化，那我們就能對特定任務有著更好的成果。
因此搭配另一組可訓練的參數 Trainable Weight進行組合，藉此最佳化下游任務的成果。
右邊橘色模組為我們要訓練的模型權重 LoRA ，透過中間 Rank — r 的限縮，可以大幅地降低訓練的參數量。

LoRA與LLM中的Transformer關係圖

透過凍結原本的預訓練模型的權重，搭配一個小的模型進行微調就可以達到很好的 Fine-Tuning 效果。透過微調新增的小型網路，當作補丁或是插件。整體想法如上圖：在特定層之中插入小型的 LoRA 網路，來讓模型可適用不同的任務。

補充說明

矩陣A的權重參數會透過高斯函數初始化，而矩陣B的權重參數會初始化為零矩陣，這樣能保證訓練開始時新增的旁枝BA = 0，從而對模型結果沒有影響。
Transformer模組中的Attention部分包含Query、Key、Value矩陣，也包含Multiple Attention的矩陣，乃至於Multiple Layer Perceptron的矩陣，LoRA只應用於Attention模組中的四個矩陣，透過實驗發現，LoRA應用於Query和Value矩陣效果最佳。

留言

留言分享你的想法！

Learn AI 不 BI

234會員

743內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2024/05/03

使用Meta釋出的模型，實作Chat GPT - Part 0

工欲善其事，必先利其器，要打造屬於自己的Chat GPT之前，我們先學習怎麼建立Google免費提供的Colab環境，它可以免費使用GPU來加速AI的運算，非常適合沒有錢添購GPU，但又想學習前沿AI技術的人。第一步：打開Google瀏覽器，並點選右上方的「方格子點點」，接著選擇「雲端硬碟」

2024/05/03

使用Meta釋出的模型，實作Chat GPT - Part 0

2024/04/26

Probabilistic Graphical Model 2.1節 - Part 2

以下內容是我閱讀Probabilistic Graphical Model, Koller 2009一書的讀書筆記，未來將不定期新增內容，此技術屬AI人工智慧範疇。在第二章會介紹機率相關概念，這也是貫穿整本書的基礎。 2.1.1.2 Probability Distributions

2024/04/26

Probabilistic Graphical Model 2.1節 - Part 2

2024/04/24

Probabilistic Graphical Model 2.1節 - Part 1

以下內容是我閱讀Probabilistic Graphical Model, Koller 2009一書的讀書筆記，未來將不定期新增內容，此技術屬AI人工智慧範疇。在第二章會介紹機率相關概念，這也是貫穿整本書的基礎。 2 Probability Theory 2.1 Motivation

2024/04/24

Probabilistic Graphical Model 2.1節 - Part 1

看更多

你可能也想看

Atai的沙龍

開始使用ChatGPT抄寫勵志英文 D3

今天又發現ChatGPT的一些缺點，使用時需要很準確的提供你想要表達的文字(我覺得還蠻重要的) 又或者拿一些範例給它看，它就能更準確的回答問題，因為今天我發現有一篇文章和之前寫過的完全一樣了，所以又要再請ChatGPT生成30則勵志英文短文，結果之前發問的問題已經消失了，又

2024/08/14

2024/08/14

AI說書 - Prompt Engineering - 68 | 單角色 & 多角色 Prompt 比較

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們在 AI說書 - Prompt Engineering - 67 | 多角色 Prompt 中闡述了

#AI#ai#PromptEngineer

2024/08/05

Learn AI 不 BI

AI說書 - Prompt Engineering - 68 | 單角色 & 多角色 Prompt 比較

#AI#ai#PromptEngineer

2024/08/05

Learn AI 不 BI

AI說書 - Prompt Engineering - 57

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們把 AI說書 - Prompt Engineering - 55 和 AI說書 - Prompt E

#AI#ai#PromptEngineering

2024/07/24

Learn AI 不 BI

AI說書 - Prompt Engineering - 57

#AI#ai#PromptEngineering

2024/07/24

Learn AI 不 BI

AI說書 - Prompt Engineering - 6

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。針對Generative AI、Foundation Model、Large Language Mode

#AI#ai#PromptEngineering

2024/06/12

Learn AI 不 BI

AI說書 - Prompt Engineering - 6

#AI#ai#PromptEngineering

2024/06/12

程式輕鬆玩

ChatGPT：人工智慧的對話夥伴

ChatGPT（全名：聊天生成預訓練轉換器）是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出，使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型，並以強化學習進行訓練。

2024/05/15

2024/05/15

從第一次使用到現在，使用GPT近一年的經驗分享。介紹在使用GPT時的困難、挑戰及學習到的技巧，以及如何讓GPT更好地理解所需內容。

#課程#挑戰#學習

2024/04/14

江柏輝(白光)的沙龍

聊聊Chat GPT

從第一次使用到現在，使用GPT近一年的經驗分享。介紹在使用GPT時的困難、挑戰及學習到的技巧，以及如何讓GPT更好地理解所需內容。

#課程#挑戰#學習

2024/04/14

技術PM路易斯的沙龍

情緒勒索你的AI來得到最佳的結果

這陣子使用AI模型，還有參考國內外一些喜歡玩語言模型的同好發文，一個很有趣的結論就是，有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通，會得到比較好的結果，這的確是非常反直覺的，也就是說很多時候ChatGPT耍懶不肯工作的時候，你用加油打氣，或是情緒勒索的方法，確實是可以得到比較好的結果。

#chatgpt#LLM#AI

2024/03/31