第三部《強化學習》5/100 馬可夫決策過程(MDP)📐 理解動態決策的數學模型!

更新 發佈閱讀 5 分鐘

5/100 第一週:📌 強化學習概論

5.馬可夫決策過程(MDP)📐 理解動態決策的數學模型!


🎯 單元導讀:

強化學習背後的理論基礎是 馬可夫決策過程(Markov Decision Process, MDP),它提供了一種數學化的方式來描述智慧體在不確定環境中如何做決策。

透過 MDP,我們可以將「狀態 → 行動 → 獎勵 → 新狀態」的過程形式化,並進一步推導最優策略(Optimal Policy)。

本單元將深入認識 MDP 的五大構成要素、馬可夫性質、狀態轉移機率與回報模型,幫助你建立 RL 的理論根基。


🔍 一、什麼是 MDP?

馬可夫決策過程 是一個五元組,定義如下:

📐 馬可夫決策過程 (MDP)

MDP=(S,A,P,R,γ)

元件與說明:

  • S(狀態空間,States):智慧體可能處於的所有情境集合
  • A(行動空間,Actions):智慧體可選擇的所有動作集合
  • P(s' | s, a)(轉移機率,Transition Probability):在狀態 sss 下執行動作 aaa,轉移到下一狀態 s′s's′ 的機率
  • R(s, a)(回報函數,Reward Function):在狀態 sss 下執行動作 aaa 所獲得的即時回報
  • γ(折扣因子,Discount Factor):衡量未來獎勵的重要性,數值介於 0~1


🧠 二、馬可夫性質(Markov Property)

MDP 的核心假設是馬可夫性質

🔁 未來只與「當前狀態與行動」有關,與「過去的歷史」無關。

用數學表示:

raw-image


📌 換句話說:我們只需要知道現在的狀態和行動,就能預測未來,而不必記住整段過去。


📦 三、價值與決策的數學模型

狀態價值函數(State Value Function):

raw-image

👉 在策略 π 下,從狀態 s 開始能獲得的預期總報酬。

動作價值函數(Action-Value Function):

raw-image

👉 在策略 π 下,從狀態 s 採取行動 a 所能得到的期望總報酬。


🕹 四、舉例:你是大學生,面對 MDP 的抉擇

  • 狀態 s:你目前是大一新生
  • 行動 a:選修 AI、醫學、設計等方向的學程
  • 轉移 P(s' | s, a):依據所選行動,未來會進入不同學習與職涯狀態
  • 回報 R(s, a):收穫知識、薪資潛力、職涯機會(如 +10、+5、-3 等數值)
  • 折扣 γ:越重視未來收入與成就,γ 越接近 1(代表長期主義)


🧪 五、為什麼 MDP 是 RL 的核心?

✅ 它提供了一個「可計算、可優化」的學習環境

✅ 支援價值估計、策略迭代、Q-learning、Actor-Critic等演算法設計

✅ 能處理動態、不確定、延遲回饋的實際問題

✅ 是從數學邏輯上實現「學會做出最好決策」的工具


🧩 六、思考挑戰與任務

1️⃣ 人生狀態 sss

  • 可觀測狀態:年齡、健康、財務狀況、學歷、技能、社會資源。
  • 潛在狀態:人脈網絡、心理韌性、價值觀、家庭支持。

2️⃣ 回報函數 R(s,a)R(s,a)R(s,a)

  • 如果「未來幸福感」是核心回報,可以拆成:
    • 物質層面:收入、生活品質。
    • 心理層面:滿意度、成就感、關係穩定性。
    • 長期潛力:可持續性、風險控制。 👉 設計策略 π 時,要在行動選擇(如學習新技能、投資、健康管理、人際互動)中平衡短期小快樂與長期大幸福。

3️⃣ 折扣因子 γ

  • γ 接近 0 → 享樂主義,重視當下快樂(如即時娛樂)。
  • γ 接近 1 → 長期主義,重視未來收益(如教育投資、養成健康習慣)。
    👉 你要評估自己更偏向哪一邊,並檢視這是否與你長遠目標一致。


✅ 七、小結與啟示

·        MDP 是強化學習的數學骨架,清楚定義了決策元素與學習目標

·        馬可夫性質強調「現在就足夠」,讓學習過程能有效計算與推理

·        價值函數讓我們不再只看眼前,而是思考長期累積的行為效果

·        想讓 AI 做出聰明決策,先讓它活在 MDP 裡!

 

留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
9會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/23
馬可夫決策過程(MDP)是強化學習的核心框架,由狀態、行動、策略與獎勵構成。智慧體透過試錯與回饋調整策略,目標是最大化累積獎勵。折扣因子 γ 決定重視短期還是長期回報,幫助 AI 及人類學會更優決策。
2025/09/23
馬可夫決策過程(MDP)是強化學習的核心框架,由狀態、行動、策略與獎勵構成。智慧體透過試錯與回饋調整策略,目標是最大化累積獎勵。折扣因子 γ 決定重視短期還是長期回報,幫助 AI 及人類學會更優決策。
2025/09/23
強化學習的核心是智慧體在環境中行動,依據回報調整策略。回報非標準答案,而是指引方向,可能延遲出現。透過不斷互動與修正,AI 或人類皆能在遊戲、自駕車、投資等情境中逐步學會最優決策。
2025/09/23
強化學習的核心是智慧體在環境中行動,依據回報調整策略。回報非標準答案,而是指引方向,可能延遲出現。透過不斷互動與修正,AI 或人類皆能在遊戲、自駕車、投資等情境中逐步學會最優決策。
2025/09/23
這一單元說明監督學習與強化學習的核心差異。監督學習依賴標準答案,適合靜態分類與回歸;強化學習則透過試錯與回饋學習策略,適用於遊戲、自駕車等動態決策。RL 無需標籤,強調長期報酬與互動學習。
2025/09/23
這一單元說明監督學習與強化學習的核心差異。監督學習依賴標準答案,適合靜態分類與回歸;強化學習則透過試錯與回饋學習策略,適用於遊戲、自駕車等動態決策。RL 無需標籤,強調長期報酬與互動學習。
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
自動化思考(Automatic Thinking)是心理學中的一個概念,它指的是人們在日常生活中進行的快速、無意識和自動的「思路-反應」捷徑。
Thumbnail
自動化思考(Automatic Thinking)是心理學中的一個概念,它指的是人們在日常生活中進行的快速、無意識和自動的「思路-反應」捷徑。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
動態規劃Dynamic Programming其實是 一種泛用的演算法思考方式與演算法建構框架。 動態規劃並不拘束於只能解課本上特定的的範例題。 只要我們能找出DP狀態定義、DP遞迴結構、初始條件(終止條件),就能適用動態規劃來解題,以數學的形式表達,並且在紙筆上或者電腦上、計算機上計算
Thumbnail
動態規劃Dynamic Programming其實是 一種泛用的演算法思考方式與演算法建構框架。 動態規劃並不拘束於只能解課本上特定的的範例題。 只要我們能找出DP狀態定義、DP遞迴結構、初始條件(終止條件),就能適用動態規劃來解題,以數學的形式表達,並且在紙筆上或者電腦上、計算機上計算
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
瞭解人生決策過程中的關鍵能力,包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力,同時改變思維模式和成功經營模式,挑戰自我,在市場競逐中找到關鍵的能力。
Thumbnail
瞭解人生決策過程中的關鍵能力,包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力,同時改變思維模式和成功經營模式,挑戰自我,在市場競逐中找到關鍵的能力。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News