📘 第三部:《強化學習 —— AI 的決策與進化》
3/100 第一週:📌 強化學習概論
3.智慧體、環境與回報(Agent & Environment)
🧠 環境中學習,回報中成長!
🎯 單元導讀:
強化學習的學習架構圍繞三個核心角色展開——智慧體(Agent)、環境(Environment)與回報(Reward)。
智慧體不斷從環境中獲取資訊、做出行動選擇,並根據行動結果獲得回饋。
透過這樣的反覆互動,它逐步學會什麼行為能帶來最多的長期利益。
這種學習機制不但模擬了人類「從經驗中學習」的過程,也為 AI 系統在複雜任務中建立決策能力奠定基礎。
🔍 一、三大核心元素說明
在強化學習中,**智慧體(Agent)**負責做出行動以追求目標,**環境(Environment)則根據行動給出狀態變化與回饋,而回報(Reward)**是衡量行動好壞的數值指標。三者形成互動循環,驅動智慧體不斷修正策略並持續學習最優決策。
📌 簡言之:Agent 在 Environment 中採取行動,得到 Reward,用以修正下一次的行為策略。
🧠 二、互動流程圖:RL 的「行為學習迴圈」
環境 Environment
┌─────────────┐
│ │
│ 狀態 S │
│ ↖ ↓ │
│ 回報 R 行動 A
│ │
└──────▲──────┘
智慧體 Agent
這是一個循環過程:
- 環境提供目前狀態 S
- 智慧體根據策略 π 選擇行動 A
- 環境根據 A 產生新的狀態 S' 並給出回報 R
- 智慧體利用 R 來更新策略 π,做得越來越好!
🕹 三、實例對照:生活中的 RL 架構
實際情境
智慧體(Agent)
環境(Environment)
行動(Action)
回報(Reward)
玩遊戲
玩家或AI
遊戲規則與畫面
移動、攻擊、閃避等
得分、輸贏
自駕車
車輛控制系統
交通與道路狀況
加速、煞車、轉彎
安全駕駛時間、是否發生事故
職涯發展
你自己
社會資源與市場條件
進修、轉職、創業
收入、滿意度、成就感
投資決策
AI交易模型
市場價格與事件流
買進、賣出、持有
獲利、虧損
📦 四、回報的特性與學習意義
- 回報(Reward)不是答案,而是方向的指引。
不像監督學習中標籤是「正確解答」,RL 中的回報可能來得很慢、甚至模糊,但它仍能驅動智慧體不斷優化行為。 - 回報可能延遲(Delayed Reward):
例如:
某次選擇今天花時間讀書,可能一週後考試成績才反映出來。
- 回報會驅動策略調整(Policy Update):
智慧體會保留帶來正回報的行動,逐漸淘汰報酬低或失敗的行為。
🧩 五、思考挑戰與任務
1️⃣ 你是否有過「一開始不確定對錯,事後才知道結果」的決策經驗?
➡️ 那正是一種「延遲回報」的現實例子。
2️⃣ 如果把你自己當成智慧體,你的「環境」包含哪些可觀察狀態?
➡️ 例如家庭背景、資源、技能、年齡、健康等。
3️⃣ 你覺得自己目前採用的決策策略 π 是基於過去回報學來的嗎?還是盲目模仿?
✅ 六、小結與啟示
- RL 的學習架構是:智慧體在環境中行動 → 得到回報 → 更新策略
- 回報不是答案,但能指引行為方向,越學越強。
- 現實世界中,回報常常延遲,但 RL 模型能處理這樣的學習場景。
- 每個人在生活中都是一個智慧體,能透過觀察與回饋,優化自己的行為與決策策略。