📘 第三部:強化學習 —— AI 的決策與進化
2/100 第一週:📌 強化學習概論
2.與監督學習的差異 🔄 沒有標準答案,只靠回饋學習!
🎯 單元導讀:
強化學習(Reinforcement Learning, RL)與監督式學習(Supervised Learning)常被並列討論,
但兩者在學習方式、訓練資料來源、回饋機制與目標導向上,有根本性的不同。
強化學習不再倚賴明確的標準答案,而是根據「行動的結果好不好」來逐步修正策略。
這種學習更貼近「現實世界中的決策過程」,適合應對動態、不確定且回饋延遲的情境。
🔍 一、核心差異比一比
- 是否有標準答案
- 監督學習:✅ 有(label)
- 強化學習:❌ 沒有,只有回饋(reward)
- 資料型態
- 監督學習:大量輸入與對應的正確輸出
- 強化學習:無需標籤,透過環境互動取得經驗
- 學習目標
- 監督學習:預測最接近真實答案的輸出
- 強化學習:學會能最大化長期報酬的策略
- 資料一次性 / 連續性
- 監督學習:資料點獨立、無前後關聯
- 強化學習:決策序列,回饋可能延遲,狀態彼此相關
- 評估指標
- 監督學習:準確率、MSE、交叉熵等
- 強化學習:累積獎勵(Cumulative Reward)、策略效能
- 舉例
- 監督學習:猜出圖片是貓還是狗、判斷房價
- 強化學習:玩遊戲、導航、資源調度、自駕車決策等
🧠 二、實例對照
📸 監督學習範例:圖像分類
- 輸入:一張圖片(如貓)
- 標籤:正確答案為「貓」
- 模型學習:計算錯誤、反向傳播、調整權重
- 結果:輸出「這是貓」的概率最高
🕹 強化學習範例:玩迷宮遊戲
- 輸入:目前位置、方向、地圖狀態(State)
- 沒有答案,只能「嘗試行動」看看會發生什麼
- 模型學習:根據成功或失敗的「回饋值(Reward)」調整策略
- 結果:學會最快走出迷宮的路線
📦 三、為何需要強化學習?
許多問題無法明確定義「正確答案」,例如:
- 玩遊戲 → 只有分數高低能判斷優劣
- 投資股票 → 未來才知道回報是賺還是賠
- 自駕車 → 每一秒都要根據環境動態決策
此時,監督學習不夠靈活,強化學習提供了更自主、實時、決策導向的方式。
🧪 四、過渡區:模擬學習 vs 現實互動
· 監督式學習
· 特點:一次性資料、反覆學習、無需與環境互動。
· 強化學習(模擬)
· 特點:透過模擬器(如遊戲環境)進行自我學習,能大量試錯而不受現實成本限制。
· 強化學習(實體)
· 特點:機器人、自駕車等在真實世界中邊做邊學,直接從真實回饋中獲取經驗。
· 強化學習最適合的場景
· 行為與回饋之間有強烈因果關係,且回饋不一定立即出現(如自駕、理財、策略決策)。
🧩 五、思考挑戰與任務
1️⃣ 大學選科系 → 能否用 RL 學會更好的選擇?
可以。RL 模型能將「選科系」視為一個 行動(Action),環境則是學習與職涯的未來發展,回報來自於就業滿意度、收入、興趣契合度等長期效果。透過模擬不同選擇與回饋,RL 能逐步學會「哪些決策帶來更高的長期獎勵」。但挑戰是:人生的回饋高度延遲(可能數年後才知道結果),需要設計合理的模擬環境與獎勵函數。
2️⃣ 標註資料不齊的新疾病診斷 → RL 是否適合?
若資料不足,監督學習難以建立精準模型,這時 RL 可以考慮。AI 可透過與「模擬病人」或「臨床決策系統」互動,不斷嘗試診斷與治療方案,依據病人反應(改善、惡化)獲得獎勵或懲罰。這樣 AI 不需每次都依賴人工標籤,而是靠回饋持續優化策略。不過在醫療領域要小心風險,通常會先用模擬環境或歷史數據做安全測試。
3️⃣ 沒有標準答案但有成功/失敗結果 → AI 如何學習?
這正是 RL 的強項。AI 可以:
- 試錯探索(Exploration):嘗試不同策略,觀察環境反應。
- 利用回饋(Exploitation):若某行為曾經成功,增加重複使用的機率。
- 累積經驗:透過 Q-Learning、Policy Gradient 等方法,將「成功/失敗」結果逐步轉化為行動價值。
最終,即使沒有明確標準答案,AI 仍能透過反覆互動,學出最可能導致成功的行為。
✅ 六、小結與啟示
• 監督學習適合靜態標註任務,如分類、回歸
• 強化學習適合互動式任務,如遊戲、決策、導航
• RL 不需要標準答案,只依靠環境的回饋學習策略
• 是 AI「思考如何行動」的關鍵途徑,也是未來智能化系統的基礎

















