5/100 第一週:📌 強化學習概論
5.馬可夫決策過程(MDP)📐 理解動態決策的數學模型!
🎯 單元導讀:
強化學習背後的理論基礎是 馬可夫決策過程(Markov Decision Process, MDP),它提供了一種數學化的方式來描述智慧體在不確定環境中如何做決策。
透過 MDP,我們可以將「狀態 → 行動 → 獎勵 → 新狀態」的過程形式化,並進一步推導最優策略(Optimal Policy)。
本單元將深入認識 MDP 的五大構成要素、馬可夫性質、狀態轉移機率與回報模型,幫助你建立 RL 的理論根基。
🔍 一、什麼是 MDP?
馬可夫決策過程 是一個五元組,定義如下:
📐 馬可夫決策過程 (MDP)
MDP=(S,A,P,R,γ)
元件與說明:
- S(狀態空間,States):智慧體可能處於的所有情境集合
- A(行動空間,Actions):智慧體可選擇的所有動作集合
- P(s' | s, a)(轉移機率,Transition Probability):在狀態 sss 下執行動作 aaa,轉移到下一狀態 s′s's′ 的機率
- R(s, a)(回報函數,Reward Function):在狀態 sss 下執行動作 aaa 所獲得的即時回報
- γ(折扣因子,Discount Factor):衡量未來獎勵的重要性,數值介於 0~1
🧠 二、馬可夫性質(Markov Property)
MDP 的核心假設是馬可夫性質:
🔁 未來只與「當前狀態與行動」有關,與「過去的歷史」無關。
用數學表示:

📌 換句話說:我們只需要知道現在的狀態和行動,就能預測未來,而不必記住整段過去。
📦 三、價值與決策的數學模型
狀態價值函數(State Value Function):

👉 在策略 π 下,從狀態 s 開始能獲得的預期總報酬。
動作價值函數(Action-Value Function):

👉 在策略 π 下,從狀態 s 採取行動 a 所能得到的期望總報酬。
🕹 四、舉例:你是大學生,面對 MDP 的抉擇
- 狀態 s:你目前是大一新生
- 行動 a:選修 AI、醫學、設計等方向的學程
- 轉移 P(s' | s, a):依據所選行動,未來會進入不同學習與職涯狀態
- 回報 R(s, a):收穫知識、薪資潛力、職涯機會(如 +10、+5、-3 等數值)
- 折扣 γ:越重視未來收入與成就,γ 越接近 1(代表長期主義)
🧪 五、為什麼 MDP 是 RL 的核心?
✅ 它提供了一個「可計算、可優化」的學習環境
✅ 支援價值估計、策略迭代、Q-learning、Actor-Critic等演算法設計
✅ 能處理動態、不確定、延遲回饋的實際問題
✅ 是從數學邏輯上實現「學會做出最好決策」的工具
🧩 六、思考挑戰與任務
1️⃣ 人生狀態 sss
- 可觀測狀態:年齡、健康、財務狀況、學歷、技能、社會資源。
- 潛在狀態:人脈網絡、心理韌性、價值觀、家庭支持。
2️⃣ 回報函數 R(s,a)R(s,a)R(s,a)
- 如果「未來幸福感」是核心回報,可以拆成:
- 物質層面:收入、生活品質。
- 心理層面:滿意度、成就感、關係穩定性。
- 長期潛力:可持續性、風險控制。 👉 設計策略 π 時,要在行動選擇(如學習新技能、投資、健康管理、人際互動)中平衡短期小快樂與長期大幸福。
3️⃣ 折扣因子 γ
- γ 接近 0 → 享樂主義,重視當下快樂(如即時娛樂)。
- γ 接近 1 → 長期主義,重視未來收益(如教育投資、養成健康習慣)。
👉 你要評估自己更偏向哪一邊,並檢視這是否與你長遠目標一致。
✅ 七、小結與啟示
· MDP 是強化學習的數學骨架,清楚定義了決策元素與學習目標
· 馬可夫性質強調「現在就足夠」,讓學習過程能有效計算與推理
· 價值函數讓我們不再只看眼前,而是思考長期累積的行為效果
· 想讓 AI 做出聰明決策,先讓它活在 MDP 裡!