AI時代系列(5) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
1/100 第一週:📌 強化學習概論
1.什麼是強化學習?🕹 試錯 + 獎勵,讓 AI 自主學會決策!
________________________________________
🎯 單元導讀:
強化學習(Reinforcement Learning, RL)是一種讓 AI 主動學習如何做出行動與決策的機器學習方法。
它不同於傳統的監督式學習,不需要「正確答案」,而是根據行動後得到的「獎勵」或「懲罰」來修正策略。
AI 就像一個在環境中學習生存與取勝的生物,透過不斷試錯與獎勵回饋,最終學會「怎麼做最有利」。
________________________________________
🧠 一、什麼是強化學習?
強化學習的核心思想是:
在特定狀態中,選擇某個行動,根據回饋調整策略,目的是讓未來獲得最大報酬。
這種學習方式模仿了人類或動物「在環境中行動 → 接收結果 → 調整行為」的模式,
是一種以「試錯學習(Trial-and-Error)」為基礎的智能訓練機制。
________________________________________
📦 二、強化學習的五大要素
· Agent(學習者):AI 系統本身,負責學習與決策。
· Environment(環境):AI 所互動的場域,如遊戲世界、自駕車道路。
· State (s) 狀態:描述當前情況,例如遊戲畫面、自駕車位置。
· Action (a) 行動:Agent 在當前狀態下可採取的操作或決策。
· Reward (r) 獎勵:來自環境的回饋,用數值評估行動的好壞。
👉 這五個要素形成一個互動循環,構成 MDP(馬可夫決策過程) 的基礎架構。
________________________________________
🔁 三、強化學習的學習流程圖
mermaid
graph LR
A[Agent 做出 Action] --> B[影響 Environment]
B --> C[獲得 Reward + 新 State]
C --> D[更新 Policy 或 Value]
D --> A
________________________________________
🎮 四、生活與應用案例
· 遊戲 AI:AlphaGo 透過自我對弈訓練,學會超越人類棋藝。
· 自駕車:AI 學會判斷路況,自動轉彎與避障。
· 機器人控制:機器手臂能學會正確夾取與拼裝作業。
· 智能理財:AI 學習股票買賣策略,根據市場反應獲得報酬。
· 教學系統:AI 導師根據學生反應動態調整教學策略,達成最佳學習效果。
________________________________________
📚 五、與其他學習方式的比較
類型 是否需要標籤資料 學習方式 應用目標
監督式學習 ✅ 是 根據資料中的正確答案進行學習 預測分類或回歸結果
非監督學習 ❌ 否 發現資料中的隱含結構 分群、降維
強化學習 ❌ 否 透過與環境互動獲得獎勵調整策略 做出行動以最大化長期報酬
________________________________________
🧪 六、經典演算法與模型介紹
演算法 / 模型 應用範圍 特點
Q-Learning 離散狀態問題,如走迷宮 儲存 Q 值表格,學習最佳行動選擇策略
Deep Q Network (DQN) 圖像輸入、遊戲畫面分析 結合深度學習與 Q-Learning
Policy Gradient 連續行動空間,如機器人控制 直接學習最優策略(非 Q 值)
Actor-Critic 結合價值與策略方法 平衡探索與穩定學習
________________________________________
🧩 七、問題挑戰與反思任務:
1️⃣ 試著想像生活中的一個場景,可以用強化學習來提升效能?
例子:智慧空調系統
- 傳統空調依溫度上下限開關,容易忽冷忽熱。
- 若用 RL,空調可以根據室內人數、時間、天氣變化「動態調整溫度與風量」。
- 獎勵設計:舒適度高 + 節能效果佳 → 高回報。 👉 最終讓空調學會「既省電又舒適」的最佳控制策略。
2️⃣ 強化學習與監督學習最大差異是什麼?
- 監督學習:有標準答案(標籤),AI 學習如何把輸入對應到正確輸出。像考卷有「答案本」。
- 強化學習:沒有明確答案,AI 需要透過「試錯 + 回饋」找到最優策略。像玩遊戲一樣,只有勝負或分數來告訴你好壞。 👉 簡單說:監督學習 =「學答案」;強化學習 =「靠經驗找策略」。
3️⃣ 如果 AI 遇到的回饋不是立即的,而是延遲發生(如股票獲利),會帶來什麼挑戰?
- 信用分配問題(Credit Assignment Problem):AI 很難判斷哪一個行動造成最終結果。
- 訓練效率降低:需要更多回合才能學到有效策略,因為「回饋訊號稀疏」。
- 可能誤判行為:AI 可能將錯誤行為與成功結果關聯,或忽略真正關鍵的行動。 👉 解決方式:使用 時間差學習 (TD)、折扣因子 (γ)、或 Eligibility Traces,幫助 AI 把延遲回饋合理分配到前面行為。
________________________________________
✅ 八、小結與啟示:
• 強化學習是 AI 自主決策的核心方法,適用於需要動態調整與行動反饋的情境。
• 它不同於監督學習的「模仿」,而是一種「摸索」與「演化」的學習。
• 從 AlphaGo 到自駕車,RL 的實力已在各大領域發揮顛覆性影響。
• 下一步:進入 DQN、Policy Gradient、Actor-Critic 等核心演算法的實作探究!