第三部《強化學習》4/100 狀態、行動、策略、獎勵 🎯 MDP 的四大核心元件!

更新 發佈閱讀 5 分鐘

📘 第三部:《強化學習 —— AI 的決策與進化》

4/100 第一週:📌 強化學習概論

4.狀態、行動、策略、獎勵 🎯 MDP 的四大核心元件!


🎯 單元導讀:

強化學習的基礎架構來自馬可夫決策過程(Markov Decision Process, MDP),它為 AI 提供了如何在動態環境中作出合理決策的數學模型

MDP 包含四大核心要素:

  • 狀態(State):你現在在哪裡?
  • 行動(Action):你可以做什麼?
  • 策略(Policy):你要怎麼決定做什麼?
  • 獎勵(Reward):這次的行動好不好?

理解這四個元素,就等於掌握了強化學習的基本框架。


🔍 一、什麼是馬可夫決策過程(MDP)?

MDP 是一種數學化的決策模型,幫助我們描述一個智慧體如何在未知或變動的環境中學習。

MDP 通常包含以下五個部分:

  • 狀態空間 S
  • 行動空間 A
  • 轉移機率 P(s' | s, a)
  • 回報函數 R(s, a)
  • 折扣因子 γ(表示未來回報的重要性)


📦 二、MDP 的四大核心元件詳解

  • 狀態 S(State)
    • 說明:描述當前環境情況
    • 舉例(玩迷宮遊戲):你目前在地圖的哪個格子、朝哪個方向
  • 行動 A(Action)
    • 說明:智慧體可採取的選項
    • 舉例:向上、向下、向左、向右移動
  • 策略 π(Policy)
    • 說明:決策規則,在某個狀態下做哪個行動的機率
    • 舉例:如果前面是牆,就轉向;如果看到出口就衝過去
  • 獎勵 R(Reward)
    • 說明:當次行動後獲得的數值回饋
    • 舉例:走錯路 -1,碰牆 -5,走到出口 +10


🧠 三、策略與獎勵的交互作用

智慧體的目標是:學會一個能最大化「累積獎勵」的策略 π*

這需要:

  1. 評估每個狀態的「價值」(Value Function)
  2. 找出哪些行動在長期下能獲得更高回報
  3. 不斷試錯與學習,調整策略

這種學習過程也正是現實世界中人類逐步變得更成熟、更會選擇的方式。


🕹 四、生活中的 MDP 概念範例

  • 大學生選系
    • 狀態 S:自己的興趣、能力、家庭背景
    • 行動 A:選電機系、財金系、醫學系…
    • 策略 π:根據薪資預期與個人喜好做選擇
    • 獎勵 R:畢業後薪資、工作滿意度
  • 電商推薦
    • 狀態 S:使用者當下行為與歷史偏好
    • 行動 A:推薦商品 A、B 或 C
    • 策略 π:根據使用者點擊紀錄調整推薦策略
    • 獎勵 R:是否購買(點擊 +1,購買 +10)
  • 投資策略
    • 狀態 S:市場指標、資產配置
    • 行動 A:買 / 賣 / 持有某標的
    • 策略 π:根據市場走勢進行再平衡
    • 獎勵 R:獲利或虧損的金額


🧪 五、延伸概念:折扣因子 γ 與未來報酬

  • γ(gamma)介於 0 ~ 1,用來衡量「未來獎勵的重要性」
  • 越接近 1,代表越看重長期獲利(如退休投資)
  • 越接近 0,代表偏向短期行動(如即時娛樂)

📌 訓練智慧體時,合理調整 γ 值,可以讓它學會「延遲享樂」或「快速反應」。


🧩 六、思考挑戰與任務

1️⃣ 你目前人生的「狀態」有哪些特徵?

在 RL 框架中,狀態 S 就是「此刻可觀察的條件」。 例如:

  • 年齡:代表你在時間軸上的位置,影響可嘗試的機會。
  • 資歷 / 經驗:過往累積的專業與學習背景。
  • 健康:身心能量,是能否持續探索的基礎。
  • 財務:資源多寡,影響你能承擔多少風險。

2️⃣ 如果你是一個 RL 智慧體,你的「策略 π」怎麼決定?

  • 可能基於 經驗回饋(過去嘗試什麼帶來正向結果,就更可能重複)。
  • 可能依靠 啟發式規則(例如「先學習、再行動」)。
  • 有時也會受 外部環境限制(例如經濟壓力、家庭期待),這些都會影響策略 π 的更新方向。

3️⃣ 你在意的是「立即快樂」還是「長期回報」?

這對應到 折扣因子 γ

  • 若 γ 接近 0:偏向即時快樂,重視當下的回報。
  • 若 γ 接近 1:偏向長期報酬,願意忍耐短期損失,追求遠期目標。

👉 你的 γ 值,反映了你對「現在」與「未來」的權衡。


✅ 七、小結與啟示

  • MDP 提供了強化學習的數學架構,幫助 AI 學會在環境中做出最優行動
  • 四大核心元件:狀態、行動、策略、獎勵,構成完整決策系統
  • 策略不是一成不變,而是透過獎勵機制不斷調整、優化
  • 你的人生也可以被視為一場 MDP:用回饋調整策略,實現更好的決策模式!

 

留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
9會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/23
強化學習的核心是智慧體在環境中行動,依據回報調整策略。回報非標準答案,而是指引方向,可能延遲出現。透過不斷互動與修正,AI 或人類皆能在遊戲、自駕車、投資等情境中逐步學會最優決策。
2025/09/23
強化學習的核心是智慧體在環境中行動,依據回報調整策略。回報非標準答案,而是指引方向,可能延遲出現。透過不斷互動與修正,AI 或人類皆能在遊戲、自駕車、投資等情境中逐步學會最優決策。
2025/09/23
這一單元說明監督學習與強化學習的核心差異。監督學習依賴標準答案,適合靜態分類與回歸;強化學習則透過試錯與回饋學習策略,適用於遊戲、自駕車等動態決策。RL 無需標籤,強調長期報酬與互動學習。
2025/09/23
這一單元說明監督學習與強化學習的核心差異。監督學習依賴標準答案,適合靜態分類與回歸;強化學習則透過試錯與回饋學習策略,適用於遊戲、自駕車等動態決策。RL 無需標籤,強調長期報酬與互動學習。
2025/09/23
強化學習是一種透過「試錯 + 獎勵」的學習方式,AI 在環境中不斷行動並根據回饋調整策略,以最大化長期報酬。其核心由 Agent、狀態、行動、獎勵與環境構成 MDP 循環。應用廣泛,從遊戲 AlphaGo、自駕車、機器人到智能理財與教育,皆展現 RL 在自主決策與效能提升上的突破性價值。
2025/09/23
強化學習是一種透過「試錯 + 獎勵」的學習方式,AI 在環境中不斷行動並根據回饋調整策略,以最大化長期報酬。其核心由 Agent、狀態、行動、獎勵與環境構成 MDP 循環。應用廣泛,從遊戲 AlphaGo、自駕車、機器人到智能理財與教育,皆展現 RL 在自主決策與效能提升上的突破性價值。
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
在開始學習計畫前的三個問題 為什麼學? 該學什麼? 如何去學? 為什麼學的主要歸類 本質性的學習 為了學習而去學習 不確定將來如何使用 功能性的學習 學習這個技能或主題可以幫助自己達成目標 該學什麼? 概念 若某些事物需要被理解而非只是記憶,就屬於概念 ex: 學習人工智能
Thumbnail
在開始學習計畫前的三個問題 為什麼學? 該學什麼? 如何去學? 為什麼學的主要歸類 本質性的學習 為了學習而去學習 不確定將來如何使用 功能性的學習 學習這個技能或主題可以幫助自己達成目標 該學什麼? 概念 若某些事物需要被理解而非只是記憶,就屬於概念 ex: 學習人工智能
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 52 中,我們已經解析完 Attention 機制如何運作的,以下延伸至 Multi-Head Attention: Head 1
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 52 中,我們已經解析完 Attention 機制如何運作的,以下延伸至 Multi-Head Attention: Head 1
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
《超越AI的思考框架》聚焦決策與組織心智,強調思考品質提升。探討因果、反事實、限制等概念,旨在改進決策。內容基礎,對新手入門有助。提倡多元思維,拓展決策框架。雖深度不足,但與管理學理論相輔相成。
Thumbnail
《超越AI的思考框架》聚焦決策與組織心智,強調思考品質提升。探討因果、反事實、限制等概念,旨在改進決策。內容基礎,對新手入門有助。提倡多元思維,拓展決策框架。雖深度不足,但與管理學理論相輔相成。
Thumbnail
瞭解人生決策過程中的關鍵能力,包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力,同時改變思維模式和成功經營模式,挑戰自我,在市場競逐中找到關鍵的能力。
Thumbnail
瞭解人生決策過程中的關鍵能力,包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力,同時改變思維模式和成功經營模式,挑戰自我,在市場競逐中找到關鍵的能力。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News