第二部：《深度學習》82/100 📌獎勵函數與策略學習 💰 最大化總回報是最終目標！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/22 更新2025/09/22 發佈閱讀 13 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部：《深度學習 —— 神經網路的革命》

82/100 第九週：📌 深度強化學習（Deep Reinforcement Learning）🎮

82.獎勵函數與策略學習 💰 最大化總回報是最終目標！________________________________________

🎯 單元導讀：

在強化學習中，最關鍵的驅動力不是資料標籤，也不是錯誤訊號，而是「回報」本身。

每一個行動都不是立即對錯，而是從「長期累積效益」來看好壞。這個核心目標，就是透過設計獎勵函數與學習策略來實現。

本課帶你掌握：

✅ 獎勵函數設計的原則與影響

✅ 策略（Policy）學習方法與演化邏輯

✅ 如何最大化期望總回報

✅ 實務中的設計陷阱與對應解法

_______________________________________

🧠 一、獎勵函數是什麼？

➤ 定義：

獎勵函數 R(s,a,s′)定義了智慧體在狀態 s 採取動作 a 後轉移到新狀態 s's′ 時，獲得的即時回饋數值。

• 高分 = 值得鼓勵的行為

• 低分 / 負分 = 應避免的行為

________________________________________

💡 二、設計良好獎勵函數的原則

📌 設計良好獎勵函數的原則統整：

在強化學習中，獎勵函數是驅動智慧體學習行為的核心，因此設計時需謹慎考量以下原則：

________________________________________

✅ 對齊最終目標

獎勵必須明確反映任務的真正目標，否則容易導致「學偏」。

範例：在圍棋中，應該以「最終勝利」作為主要回饋，而非每一步落子是否佔據更多位置，否則模型可能專注於佔格數，卻無法贏得比賽。

________________________________________

✅ 穩定可微

若搭配神經網路進行梯度下降，獎勵的變化必須平滑、連續，才能有效傳遞學習訊號。

範例：避免使用過於稀疏或二元（成功／失敗）的獎勵，改以連續分數評估策略效果。

________________________________________

✅ 能量引導探索

給予智慧體初期適當的正向鼓勵，使其能從完全無知中逐步學習方向。

範例：在迷宮中，設計「接近出口就有小獎勵」可幫助 agent 不至於一開始完全迷失方向。

________________________________________

⚠ 避免「作弊路徑」

若獎勵設計不當，Agent 可能會找出投機方式達到高分，卻違背原始目標。

範例：若設計為「活得越久分數越高」，Agent 可能學會「站在牆角不動」以延長時間，而不是完成任務。

🎯 總結：

良好的獎勵函數應該同時具備目標導向、學習友好、探索引導與安全限制四大特性，才能真正促進智慧體學出正確且有意義的行為策略。

________________________________________

🧨 例子：設計不當的獎勵函數問題

設計不當的獎勵函數常會導致智慧體學到與任務目標背道而馳的行為。

例如：在遊戲中若單純對移動給分，Agent 可能瘋狂左右移動賺分卻從不破關；若追求速度卻未設懲罰，無人車可能會高速衝撞仍得高分；若獎勵與任務脫節，模型甚至可能發展出「作弊」策略以獲取最大回饋。這些問題的根源在於回饋訊號未能正確反映目標，強化了錯誤的行為。因此，設計獎勵函數時必須謹慎，確保其真正引導模型學習到對任務有意義的策略。

________________________________________

🧭 三、策略（Policy）學習是什麼？

📌 策略（Policy）學習是強化學習中的核心任務，指智慧體學會在不同狀態下應該採取哪些動作的決策方式，通常以 π(a|s) 表示在狀態 s 下選擇動作 a 的機率。

策略可分為兩類：確定性策略在每個狀態下總是選擇同一動作，常用於 Q-learning 等值為主方法；而隨機性策略則依照機率進行動作選擇，鼓勵探索未知環境，常見於如 REINFORCE、PPO 等策略為主方法。策略學習的最終目標，是學出一個能在長期互動中最大化累積報酬、並平衡探索與利用的行為策略。

________________________________________

📈 四、最大化總回報的目標函數

在強化學習中，策略學習的核心目標就是找到一個最優策略，使智慧體在長期互動中能獲得最多的回報。這個目標通常用一個期望總回報的數學式表示：

J(π) = Eπ [ ∑ r^t Rt ]

🔍 參數說明：

• π（pi）：智慧體所採用的策略，也就是在每個狀態下選擇動作的行為方式

• γ（gamma）：折扣因子，用來平衡「即時回報」與「未來回報」的重要性（γ 越接近 1，越重視長期報酬）

✅ 學習目標：

強化學習的目標就是找到一個最優策略 π*，使這個期望總回報 J(π) 達到最大值。也就是讓智慧體能在長期行動中做出最有利的決策。

________________________________________

⚙️ 五、常見策略學習法（Policy Learning）

強化學習中根據策略學習方式可分為幾種主要類別，各有不同特點與適用場景。

例如，策略梯度法（如 REINFORCE、PPO）透過直接對策略參數做梯度上升，特別適合處理連續動作空間，能學出更細緻的行為控制；Actor-Critic 方法則結合策略（actor）與價值函數（critic）的學習，在估值與決策之間取得平衡，具有效能穩定、收斂快的優勢，是目前應用最廣泛的架構之一；

而Evolutionary RL 則採用基於族群演化的搜尋方式（如演化策略 ES），不需要梯度資訊，因此特別適合應用在那些無法回傳梯度或環境高度隨機的場景。這三種方法構成了策略學習的關鍵技術路線，可根據任務需求選擇最合適的方案。

________________________________________

🎯 PPO 示意：

• 利用舊策略產生軌跡

• 使用新策略限制「變動幅度」（防止學壞）

• 同時最大化新策略期望回報與 KL 損失約束

________________________________________

🚧 六、現實中的挑戰與注意事項

在強化學習的實際應用中，模型常面臨三大經典挑戰：

🧱 稀疏獎勵（Sparse Reward）、🔄探索與利用的權衡（Exploration vs Exploitation）、以及🌪️ 環境動態變化（Non-stationary Environment）。

若環境僅在完成任務時才給予獎勵，例如在遊戲中只有最後通關才得到回饋，會導致智慧體難以獲得學習訊號。此時可透過**獎勵塑形（Reward Shaping）**設計中間回饋、輔助任務（Auxiliary Tasks）如預測下一狀態，或是引入內在動機（Intrinsic Motivation），例如 curiosity-driven 探索，來增加學習訊號的密度與方向性。

在探索與利用的權衡方面，智慧體必須在「採用目前已知最好的行為」與「嘗試新行為以尋找潛在更佳策略」之間做出抉擇。為此，常見的解法包括ε-greedy 策略（以一定機率隨機探索）、熵獎勵（Entropy Bonus）鼓勵行為多樣性，以及Boltzmann 分布策略根據價值差異進行機率選擇，這些方法可幫助模型在不同學習階段維持動作選擇的彈性。

至於面對動態或非穩定的環境，例如市場規則改變或使用者偏好變動，模型若僅依賴過去經驗容易失效。此時可導入**即時學習（Online RL）不斷更新策略、使用元學習（Meta-RL）提升模型對任務變化的快速適應能力，或採用策略微調（Fine-tuning）**方式在新任務中進行小幅度調整，確保行為策略能持續有效。

總體而言，針對這些挑戰所設計的策略與方法，不僅提升了智慧體的學習效率，也大幅增強其在真實世界應用場景中的穩定性、彈性與泛化能力。這些都是強化學習成功落地應用的關鍵因素。

________________________________________

📚 七、小結與啟示：

✅ 獎勵函數是強化學習的「靈魂」，設計好壞直接決定學習目標與行為品質

✅ 策略學習的任務是找出最優行動模式來最大化長期獎勵

✅ 不同任務類型適合不同的策略學習方法，選擇需配合環境特性

✅ 設計過程中需避免「獎勵引導錯誤行為」或「訓練過度偏向當前策略」

________________________________________

💬 問題挑戰與思考：

1. 如果某個遊戲只有「破關後得 1 分」，如何讓強化學習模型不迷路於探索？

這種情境屬於極端稀疏獎勵（Sparse Reward）問題，智慧體在大多數情況下都無法獲得有意義的回饋，容易在初期學習階段陷入「毫無方向」的盲目探索。為了解決這個問題，可以採取以下策略：

🔹 獎勵塑形（Reward Shaping）：設計中間階段的獎勵，例如靠近出口給小分數，或完成子任務也能獲得回饋，幫助模型獲得學習信號。

🔹 探索增強方法：如引入 curiosity-driven 探索（基於新奇性給獎勵）、使用 entropy bonus 或 count-based exploration 等技術，提升探索效率。

🔹 模仿學習或示範引導：讓模型觀察人類或專家樣本進行預訓練，縮短隨機摸索的時間。

________________________________________

2. 假如獎勵函數設定為「速度越快越好」，會導致什麼偏差？怎麼改進？

這種獎勵設計可能造成智慧體為了最大化速度而忽略安全性與任務正確性，例如在自駕車任務中可能導致狂飆、闖紅燈、撞牆等行為，雖然快但不實用甚至危險。

✅ 可能偏差：

• Agent 可能採取不合理或危險的行動以換取速度，例如走捷徑或無視規則。

• 忽略任務本身的成功條件，僅為了「得分快」而非「完成好」。

🔧 改進方式：

• 引入多目標獎勵設計，例如「速度快 + 安全不撞牆 + 到達終點」，將回饋設計成平衡多個面向。

• 使用懲罰項（如 crash penalty、路線偏離扣分）來抑制偏差行為。

• 可考慮將「速度獎勵」轉為「在安全完成任務前提下的平均時間效率」等複合型指標。

________________________________________

3. 為什麼策略學習比值函數學習更難？又有什麼優勢？

🔴 困難原因：

• 策略學習牽涉到直接學習一個動作機率分布函數，每一次動作選擇都會影響未來整體報酬，導致梯度估計的方差大、收斂慢。

• 相較之下，值函數學習只需預估每個狀態或動作的「好壞」，較為穩定。

✅ 優勢：

• 可直接應用於連續動作空間，不像值方法那樣需要離散動作集。

• 容易整合探索策略（如隨機性策略 π(a|s)），更適合處理不確定性與變動環境。

• 在某些場景（如策略梯度法或 PPO）中，更容易透過 end-to-end 訓練學習出精細的行為模式。

________________________________________

📌 總結：

稀疏獎勵可透過輔助任務與內在動機改善，錯誤獎勵設計需多目標平衡避免偏差，而策略學習雖然訓練難度較高，但在連續控制與策略靈活性上具有獨特優勢。

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

16會員

338內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/22

第二部：《深度學習》81/100 📌強化學習基本概念 🕹 智慧體 + 環境 + 回饋機制！

強化學習透過智慧體與環境互動，依獎懲回饋學習策略，核心包含狀態、動作、回饋、策略與價值函數。常見方法有 Q-Learning、Policy Gradient、Actor-Critic 與 Model-based。應用涵蓋遊戲 AI、機器人、金融與推薦系統，適合解決動態決策與延遲回饋問題。

2025/09/22

第二部：《深度學習》81/100 📌強化學習基本概念 🕹 智慧體 + 環境 + 回饋機制！

2025/09/22

第二部：《深度學習》80/100 📌第八周小結與測驗：SimCLR 處理 CIFAR-10 🧪 只靠自己學會分類！

自監督學習可讓模型從無標註資料中學習結構與語意。SimCLR 藉由資料增強與對比損失，訓練模型拉近正樣本、推遠負樣本，在 CIFAR-10 上展現有效特徵學習，結合少量微調即可完成分類等下游任務。

2025/09/22

第二部：《深度學習》80/100 📌第八周小結與測驗：SimCLR 處理 CIFAR-10 🧪 只靠自己學會分類！

2025/09/22

第二部：《深度學習》79/100 📌應用範例：X-ray 診斷、金融異常偵測 🏥💰 從少量資料中挖寶！

醫療 X-ray 診斷與金融異常偵測皆面臨資料稀缺與高精準需求。結合自監督學習與少樣本學習，可利用大量未標註資料學習通用特徵，再用少量標註微調，提升診斷輔助與風控效能，同時降低成本並增強泛化能力。

2025/09/22

第二部：《深度學習》79/100 📌應用範例：X-ray 診斷、金融異常偵測 🏥💰 從少量資料中挖寶！

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15