RLHF 流程步驟

iPAS AI應用規劃師學習筆記

發佈於生成式AI技術與應用

更新於 2025/08/27發佈於 2025/08/27閱讀時間約 2 分鐘

Reinforcement Learning from Human Feedback（RLHF）是訓練大型語言模型（如 ChatGPT）的一種方法，通過人類反饋引導模型更好地理解和回應。其流程主要包含三個階段：

RLHF 流程步驟

1. 預訓練語言模型（Pretraining） 使用大規模文本資料對通用語言模型進行預訓練，學習語言基本知識和語言結構。

2. 訓練獎勵模型（Reward Model Training）

• 收集人類標註的數據，例如多個模型輸出候選答案由人類評比哪個更好。

• 訓練一個獎勵模型，學習根據人類偏好為模型輸出分數（reward）。

• 獎勵模型通常是個語言模型，但輸出的是一個實數值而非文本。

3. 強化學習微調（Fine-tuning with Reinforcement Learning）

• 使用訓練好的獎勵模型作為評價標準，對原始語言模型進行強化學習優化。

• 通過演算法如 Proximal Policy Optimization（PPO），更新模型參數以生成更優質、符合人類偏好的回答。

簡要比喻：

• 初始模型像學生，先讀很多書（預訓練）。

• 人類老師給予評分或比較（獎勵模型訓練）。

• 學生根據老師評價不斷改進寫作技巧（強化學習微調），學會寫出更符合老師期望的文章。

總結：

RLHF 是用來將機器學習模型「對齊」到人類價值觀和偏好，使其輸出更實用、準確和合宜的有效方法。這種流程結合了大規模預訓練、人類專家評估，以及強化學習優化，已成為大型語言模型成功的關鍵。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記生成式AI技術與應用

留言

留言分享你的想法！

郝信華 iPAS AI應用規劃師學習筆記

18會員

480內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/08/19

Cross Attention

Cross Attention 是 Transformer 模型中的一種注意力機制，主要用於讓模型能夠同時處理來自兩個不同來源的序列信息。它常見於編碼器-解碼器架構中，解碼器透過 cross attention「關注」編碼器輸出的所有位置，從而有效地融合與利用輸入序列信息生成相應輸出。 Cross

2025/08/19

Cross Attention

2025/08/18

LoRA（Low-Rank Adaptation）

LoRA（Low-Rank Adaptation）是一種高效的微調技術，設計用於快速適應大型預訓練模型（如GPT、BERT、T5）以完成特定任務，同時大幅減少需要調整的參數數量。它通過在模型的權重矩陣中引入低秩（low-rank）分解，僅學習少量可訓練參數，避免完整微調帶來的龐大計算和記憶體消耗。

2025/08/18

LoRA（Low-Rank Adaptation）

2025/08/18

Textual Inversion

Textual Inversion 是一種用於個性化文字到圖像生成模型（如 Stable Diffusion）的技術。它允許用戶通過少量示例圖片（通常3-5張），讓模型學會一個新的「詞彙」或「概念」，這個詞彙對應於用戶提供的特定對象、風格或人物。主要原理： • 傳統的文字到圖像模型使用預訓練

2025/08/18

Textual Inversion

看更多

你可能也想看

黛•Adele的生活隨筆

斜槓生活日常｜不受時間空間限制，分享喜歡的產品也能有被動收入｜蝦皮分潤計畫

常常被朋友問「哪裡買的？」嗎？透過蝦皮分潤計畫，把日常購物的分享多加一個步驟，就能轉換成現金回饋。門檻低、申請簡單，特別適合學生與上班族，讓零碎時間也能創造小確幸。

#蝦皮分潤計畫#蝦皮聯盟行銷#蝦皮副業

2025/09/06

黛•Adele的生活隨筆

斜槓生活日常｜不受時間空間限制，分享喜歡的產品也能有被動收入｜蝦皮分潤計畫

#蝦皮分潤計畫#蝦皮聯盟行銷#蝦皮副業

2025/09/06

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 84

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。繼 AI說書 - 從0開始 - 82 與 xxx ，我們談論了衡量 AI 模型的方式，那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時，需要

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 84

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 83

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 xxx 提到，既然提到訓練，就表示要有一套衡量基準供大家遵守，有鑑於此，以下繼續介紹幾類衡量方式： MCC：首先介紹 True (T) Positive (

#AI#ai#PromptEngineering

2024/07/11

Learn AI 不 BI

AI說書 - 從0開始 - 83

#AI#ai#PromptEngineering

2024/07/11

Learn AI 不 BI

AI說書 - 從0開始 - 82

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo

#AI#ai#PromptEngineering

2024/07/10

Learn AI 不 BI

AI說書 - 從0開始 - 82

#AI#ai#PromptEngineering

2024/07/10

Learn AI 不 BI

AI說書 - 從0開始 - 81

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續xxxx，ChatGPT 產生的程式，我們將它匯入 Colab 執行看看 ( Colab 使用教學見使用Meta釋出的模型，實作Chat GPT - Part 0

#AI#ai#PromptEngineering

2024/07/10

Learn AI 不 BI

AI說書 - 從0開始 - 81

#AI#ai#PromptEngineering

2024/07/10

Learn AI 不 BI

AI說書 - 從0開始 - 69

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin

#AI#ai#PromptEngineering

2024/07/02

Learn AI 不 BI

AI說書 - 從0開始 - 69

#AI#ai#PromptEngineering

2024/07/02

Learn AI 不 BI

AI說書 - Prompt Engineering - 6

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。針對Generative AI、Foundation Model、Large Language Mode

#AI#ai#PromptEngineering

2024/06/12

Learn AI 不 BI

AI說書 - Prompt Engineering - 6

#AI#ai#PromptEngineering

2024/06/12

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News