第三部《強化學習》26/100 On-policy 與 Off-policy 比較 🧭 學自己的策略還是別人的?

更新 發佈閱讀 8 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

26/100 第三週:📌 蒙地卡羅方法(Monte Carlo Methods)

26.On-policy 與 Off-policy 比較 🧭 學自己的策略還是別人的?

________________________________________

🎯 單元導讀:

在強化學習中,你收集資料的方式,會直接影響學習的結果。

這時候,一個關鍵的選擇就出現了:

你是用「自己正在學的策略」來互動(On-policy)?

還是用「別的策略」來收集資料,但學的是目標策略(Off-policy)?

這兩種學習方式各有千秋,是強化學習系統設計的基本思維之一。

________________________________________

🧠 一、什麼是 On-policy 與 Off-policy?

在強化學習中,On-policy 和 Off-policy 是兩種不同的學習架構。

On-policy 方法使用目前正在學習的策略來與環境互動並收集資料,學習與執行使用的是同一套策略,像 SARSA (State — Action — Reward — State — Action)和 REINFORCE 就屬於典型的 On-policy 方法。

相對地,Off-policy 方法允許使用其他行為策略來收集資料,而學習的則是不同的目標策略,這樣可以同時兼顧探索與最佳化,常見的例子如 Q-Learning、DQN、DDPG 等。

兩者的主要差異在於:On-policy 強調即時一致性,適合安全性高、實作簡單的場景;而 Off-policy 靈活度更高,適合長期探索與利用歷史數據的學習任務。

📌 換句話說:

On-policy:學你自己正在做的事

Off-policy:學「你理想中該怎麼做」,即使你實際上沒這樣做

________________________________________

📦 二、對照範例:SARSA vs Q-Learning

比較項目 SARSA(On-policy) Q-Learning(Off-policy)

資料來源 當前策略 任何策略(探索性行為亦可)

學習方式 順著當前動作學 預測理想最優行為

更新公式 基於「實際採取」的動作值 基於「理想最優」的動作值

穩定性 更穩健(低變異) 更積極(學得更快)

________________________________________

📊 三、優缺點比較分析

在強化學習中,On-policy 與 Off-policy 各有不同的優缺點與適用場景。On-policy 方法邏輯較直觀易懂,因為學習與執行用的是同一套策略,探索過程較安全、可控,適合線上學習或對安全性要求較高的任務,但由於每次只能使用新收集的資料,學習效率相對較慢。

而 Off-policy 方法雖較抽象,因學習與執行策略分離,容易出現策略偏離問題,但優勢是能夠重複利用歷史資料,提升樣本效率,非常適合用在資料來源豐富、離線訓練、或需要多策略並行學習的場景。兩者各有應用價值,實務上常依任務特性靈活選擇。

________________________________________

💡 四、例子說明:學騎腳踏車

On-policy 你一邊嘗試騎車,一邊從自己的摔跤中學習怎麼平衡

Off-policy 你站在旁邊觀察別人摔車,推測「如果是我應該怎麼做才不會跌倒」來學習

📌 雖然觀察別人可以學得快,但要注意別人的行為是否代表你的最終目標策略。

________________________________________

💻 五、程式觀念對照

python

蒙地卡羅 Off-Policy 估值公式 (Importance Sampling)

1️⃣ On-policy(SARSA)

公式:

Q[s][a] += α * (r + γ * Q[s_next][a_next] - Q[s][a])

解釋:

SARSA 是 On-policy,意思是它在學習時使用的是「自己實際執行的行為策略」。

當你在狀態 s 執行了動作 a,獲得獎勵 r,轉移到新狀態 s_next,再依據當前策略選擇新的動作 a_next。

更新 Q 值時,不是假設下一步會採取最佳行動,而是根據實際選到的 a_next 來更新。

這樣做的好處是:更新的方向反映了實際行為中包含的探索與隨機性,學習過程穩定、安全。

________________________________________

2️⃣ Off-policy(Q-learning)

公式:

Q[s][a] += α * (r + γ * max(Q[s_next]) - Q[s][a])

解釋:

Q-learning 是 Off-policy,意思是它可以用其他行為策略來收集資料,但學習的目標是學出最優策略 π*。

不管你在 s_next 選擇了哪個動作,Q-learning 總是假設:「理論上,下一步應該會選擇最好的行動」,因此直接取 max(Q[s_next])。

這樣學習速度較快,會積極朝理論上最優的方向收斂,但探索階段可能不如 SARSA 那麼穩定安全,尤其在高風險任務中。

________________________________________

🧩 六、挑戰任務與反思

1️⃣ 假設你能使用歷史資料進行策略訓練,你會選擇 on-policy 還是 off-policy?為什麼?

2️⃣ 若行為策略與目標策略差異過大,Off-policy 會遇到什麼問題?如何解決?

(提示:重要性修正)

3️⃣ 如何避免 on-policy 學習陷入「過早收斂」或「探索不足」的問題?

________________________________________

✅ 七、小結與啟示:

• On-policy 學的是自己現在在做的事情,Off-policy 學的是理想目標策略

• On-policy 穩健、安全;Off-policy 效率高、彈性強

• 設計強化學習系統時,選擇策略類型會影響訓練效率與實務可行性

• 真實世界應用常需混合使用兩者的優點(例如:Actor-Critic 方法)



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
9會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/24
重要性修正是離策略學習的核心,透過加權方式將行為策略 μ 的樣本轉換為目標策略 π 的估值。普通方法雖無偏卻變異大,加權法則收斂更穩定。此技術能在僅有歷史資料或無法頻繁試驗的情境下,有效訓練與評估新策略。
2025/09/24
重要性修正是離策略學習的核心,透過加權方式將行為策略 μ 的樣本轉換為目標策略 π 的估值。普通方法雖無偏卻變異大,加權法則收斂更穩定。此技術能在僅有歷史資料或無法頻繁試驗的情境下,有效訓練與評估新策略。
2025/09/24
蒙地卡羅方法可透過隨機軌跡樣本估計狀態價值,不需環境模型。利用多次 episode 的累積報酬平均,逼近真實期望。此技術讓 AI 能從經驗中學習,廣泛應用於遊戲、金融、教育與醫療等領域,成為理論走向實踐的重要橋樑。
2025/09/24
蒙地卡羅方法可透過隨機軌跡樣本估計狀態價值,不需環境模型。利用多次 episode 的累積報酬平均,逼近真實期望。此技術讓 AI 能從經驗中學習,廣泛應用於遊戲、金融、教育與醫療等領域,成為理論走向實踐的重要橋樑。
2025/09/24
蒙地卡羅控制(MC Control)透過自我對弈與 ε-Greedy 探索,不斷更新 Q 值並改進策略,最終逼近最優策略。AlphaGo 早期即結合此方法與監督學習,從人類棋譜起步,再靠自我強化進化,展現 AI 從經驗中學習策略的威力。
2025/09/24
蒙地卡羅控制(MC Control)透過自我對弈與 ε-Greedy 探索,不斷更新 Q 值並改進策略,最終逼近最優策略。AlphaGo 早期即結合此方法與監督學習,從人類棋譜起步,再靠自我強化進化,展現 AI 從經驗中學習策略的威力。
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 52 中,我們已經解析完 Attention 機制如何運作的,以下延伸至 Multi-Head Attention: Head 1
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 52 中,我們已經解析完 Attention 機制如何運作的,以下延伸至 Multi-Head Attention: Head 1
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News