📘 第三部:《強化學習 —— AI 的決策與進化》
4/100 第一週:📌 強化學習概論
4.狀態、行動、策略、獎勵 🎯 MDP 的四大核心元件!
🎯 單元導讀:
強化學習的基礎架構來自馬可夫決策過程(Markov Decision Process, MDP),它為 AI 提供了如何在動態環境中作出合理決策的數學模型。
MDP 包含四大核心要素:
- 狀態(State):你現在在哪裡?
- 行動(Action):你可以做什麼?
- 策略(Policy):你要怎麼決定做什麼?
- 獎勵(Reward):這次的行動好不好?
理解這四個元素,就等於掌握了強化學習的基本框架。
🔍 一、什麼是馬可夫決策過程(MDP)?
MDP 是一種數學化的決策模型,幫助我們描述一個智慧體如何在未知或變動的環境中學習。
MDP 通常包含以下五個部分:
- 狀態空間 S
- 行動空間 A
- 轉移機率 P(s' | s, a)
- 回報函數 R(s, a)
- 折扣因子 γ(表示未來回報的重要性)
📦 二、MDP 的四大核心元件詳解
- 狀態 S(State)
- 說明:描述當前環境情況
- 舉例(玩迷宮遊戲):你目前在地圖的哪個格子、朝哪個方向
- 行動 A(Action)
- 說明:智慧體可採取的選項
- 舉例:向上、向下、向左、向右移動
- 策略 π(Policy)
- 說明:決策規則,在某個狀態下做哪個行動的機率
- 舉例:如果前面是牆,就轉向;如果看到出口就衝過去
- 獎勵 R(Reward)
- 說明:當次行動後獲得的數值回饋
- 舉例:走錯路 -1,碰牆 -5,走到出口 +10
🧠 三、策略與獎勵的交互作用
智慧體的目標是:學會一個能最大化「累積獎勵」的策略 π*
這需要:
- 評估每個狀態的「價值」(Value Function)
- 找出哪些行動在長期下能獲得更高回報
- 不斷試錯與學習,調整策略
這種學習過程也正是現實世界中人類逐步變得更成熟、更會選擇的方式。
🕹 四、生活中的 MDP 概念範例
- 大學生選系
- 狀態 S:自己的興趣、能力、家庭背景
- 行動 A:選電機系、財金系、醫學系…
- 策略 π:根據薪資預期與個人喜好做選擇
- 獎勵 R:畢業後薪資、工作滿意度
- 電商推薦
- 狀態 S:使用者當下行為與歷史偏好
- 行動 A:推薦商品 A、B 或 C
- 策略 π:根據使用者點擊紀錄調整推薦策略
- 獎勵 R:是否購買(點擊 +1,購買 +10)
- 投資策略
- 狀態 S:市場指標、資產配置
- 行動 A:買 / 賣 / 持有某標的
- 策略 π:根據市場走勢進行再平衡
- 獎勵 R:獲利或虧損的金額
🧪 五、延伸概念:折扣因子 γ 與未來報酬
- γ(gamma)介於 0 ~ 1,用來衡量「未來獎勵的重要性」
- 越接近 1,代表越看重長期獲利(如退休投資)
- 越接近 0,代表偏向短期行動(如即時娛樂)
📌 訓練智慧體時,合理調整 γ 值,可以讓它學會「延遲享樂」或「快速反應」。
🧩 六、思考挑戰與任務
1️⃣ 你目前人生的「狀態」有哪些特徵?
在 RL 框架中,狀態 S 就是「此刻可觀察的條件」。 例如:
- 年齡:代表你在時間軸上的位置,影響可嘗試的機會。
- 資歷 / 經驗:過往累積的專業與學習背景。
- 健康:身心能量,是能否持續探索的基礎。
- 財務:資源多寡,影響你能承擔多少風險。
2️⃣ 如果你是一個 RL 智慧體,你的「策略 π」怎麼決定?
- 可能基於 經驗回饋(過去嘗試什麼帶來正向結果,就更可能重複)。
- 可能依靠 啟發式規則(例如「先學習、再行動」)。
- 有時也會受 外部環境限制(例如經濟壓力、家庭期待),這些都會影響策略 π 的更新方向。
3️⃣ 你在意的是「立即快樂」還是「長期回報」?
這對應到 折扣因子 γ:
- 若 γ 接近 0:偏向即時快樂,重視當下的回報。
- 若 γ 接近 1:偏向長期報酬,願意忍耐短期損失,追求遠期目標。
👉 你的 γ 值,反映了你對「現在」與「未來」的權衡。
✅ 七、小結與啟示
- MDP 提供了強化學習的數學架構,幫助 AI 學會在環境中做出最優行動
- 四大核心元件:狀態、行動、策略、獎勵,構成完整決策系統
- 策略不是一成不變,而是透過獎勵機制不斷調整、優化
- 你的人生也可以被視為一場 MDP:用回饋調整策略,實現更好的決策模式!