第三部《強化學習》1/100 什麼是強化學習?🕹 試錯 + 獎勵,讓 AI 自主學會決策!

更新 發佈閱讀 7 分鐘

AI時代系列(5) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

1/100 第一週:📌 強化學習概論

1.什麼是強化學習?🕹 試錯 + 獎勵,讓 AI 自主學會決策!

________________________________________

🎯 單元導讀:

強化學習(Reinforcement Learning, RL)是一種讓 AI 主動學習如何做出行動與決策的機器學習方法。

它不同於傳統的監督式學習,不需要「正確答案」,而是根據行動後得到的「獎勵」或「懲罰」來修正策略。

AI 就像一個在環境中學習生存與取勝的生物,透過不斷試錯與獎勵回饋,最終學會「怎麼做最有利」。

________________________________________

🧠 一、什麼是強化學習?

強化學習的核心思想是:

在特定狀態中,選擇某個行動,根據回饋調整策略,目的是讓未來獲得最大報酬。

這種學習方式模仿了人類或動物「在環境中行動 → 接收結果 → 調整行為」的模式,

是一種以「試錯學習(Trial-and-Error)」為基礎的智能訓練機制。

________________________________________

📦 二、強化學習的五大要素

·        Agent(學習者):AI 系統本身,負責學習與決策。

·        Environment(環境):AI 所互動的場域,如遊戲世界、自駕車道路。

·        State (s) 狀態:描述當前情況,例如遊戲畫面、自駕車位置。

·        Action (a) 行動:Agent 在當前狀態下可採取的操作或決策。

·        Reward (r) 獎勵:來自環境的回饋,用數值評估行動的好壞。

👉 這五個要素形成一個互動循環,構成 MDP(馬可夫決策過程) 的基礎架構。

________________________________________

🔁 三、強化學習的學習流程圖

mermaid

graph LR

A[Agent 做出 Action] --> B[影響 Environment]

B --> C[獲得 Reward + 新 State]

C --> D[更新 Policy 或 Value]

D --> A

________________________________________

🎮 四、生活與應用案例

·  遊戲 AI:AlphaGo 透過自我對弈訓練,學會超越人類棋藝。

·  自駕車:AI 學會判斷路況,自動轉彎與避障。

·  機器人控制:機器手臂能學會正確夾取與拼裝作業。

·  智能理財:AI 學習股票買賣策略,根據市場反應獲得報酬。

·  教學系統:AI 導師根據學生反應動態調整教學策略,達成最佳學習效果。

________________________________________

📚 五、與其他學習方式的比較

類型        是否需要標籤資料        學習方式        應用目標

監督式學習    ✅ 是    根據資料中的正確答案進行學習        預測分類或回歸結果

非監督學習    ❌ 否    發現資料中的隱含結構        分群、降維

強化學習        ❌ 否    透過與環境互動獲得獎勵調整策略    做出行動以最大化長期報酬

________________________________________

🧪 六、經典演算法與模型介紹

演算法 / 模型      應用範圍        特點

Q-Learning      離散狀態問題,如走迷宮    儲存 Q 值表格,學習最佳行動選擇策略

Deep Q Network (DQN)  圖像輸入、遊戲畫面分析    結合深度學習與 Q-Learning

Policy Gradient       連續行動空間,如機器人控制    直接學習最優策略(非 Q 值)

Actor-Critic     結合價值與策略方法    平衡探索與穩定學習

________________________________________

🧩 七、問題挑戰與反思任務:

1️⃣ 試著想像生活中的一個場景,可以用強化學習來提升效能?

例子:智慧空調系統

  • 傳統空調依溫度上下限開關,容易忽冷忽熱。
  • 若用 RL,空調可以根據室內人數、時間、天氣變化「動態調整溫度與風量」。
  • 獎勵設計:舒適度高 + 節能效果佳 → 高回報。 👉 最終讓空調學會「既省電又舒適」的最佳控制策略。


2️⃣ 強化學習與監督學習最大差異是什麼?

  • 監督學習:有標準答案(標籤),AI 學習如何把輸入對應到正確輸出。像考卷有「答案本」。
  • 強化學習:沒有明確答案,AI 需要透過「試錯 + 回饋」找到最優策略。像玩遊戲一樣,只有勝負或分數來告訴你好壞。 👉 簡單說:監督學習 =「學答案」;強化學習 =「靠經驗找策略」。


3️⃣ 如果 AI 遇到的回饋不是立即的,而是延遲發生(如股票獲利),會帶來什麼挑戰?

  • 信用分配問題(Credit Assignment Problem):AI 很難判斷哪一個行動造成最終結果。
  • 訓練效率降低:需要更多回合才能學到有效策略,因為「回饋訊號稀疏」。
  • 可能誤判行為:AI 可能將錯誤行為與成功結果關聯,或忽略真正關鍵的行動。 👉 解決方式:使用 時間差學習 (TD)折扣因子 (γ)、或 Eligibility Traces,幫助 AI 把延遲回饋合理分配到前面行為。

________________________________________

✅ 八、小結與啟示:

•    強化學習是 AI 自主決策的核心方法,適用於需要動態調整與行動反饋的情境。

•    它不同於監督學習的「模仿」,而是一種「摸索」與「演化」的學習。

•    從 AlphaGo 到自駕車,RL 的實力已在各大領域發揮顛覆性影響。

•    下一步:進入 DQN、Policy Gradient、Actor-Critic 等核心演算法的實作探究!

 

留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
9會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/23
《強化學習 —— AI 的決策與進化》系統性介紹RL理論、演算法與應用,從MDP、Q-Learning到DQN、PPO與多智能體學習,並涵蓋自駕車、金融、工業等實戰案例,培養AI自主決策與未來應用能力。
Thumbnail
2025/09/23
《強化學習 —— AI 的決策與進化》系統性介紹RL理論、演算法與應用,從MDP、Q-Learning到DQN、PPO與多智能體學習,並涵蓋自駕車、金融、工業等實戰案例,培養AI自主決策與未來應用能力。
Thumbnail
2025/09/22
本章總結深度學習全貌,涵蓋 MLP、CNN、RNN、GAN、Transformer 等模型,並實踐部署、壓縮與 Edge AI。提供測驗與應用雛型流程,結合資料處理、API、CI/CD 與監控,助力快速迭代。下一部將邁入強化學習領域。
2025/09/22
本章總結深度學習全貌,涵蓋 MLP、CNN、RNN、GAN、Transformer 等模型,並實踐部署、壓縮與 Edge AI。提供測驗與應用雛型流程,結合資料處理、API、CI/CD 與監控,助力快速迭代。下一部將邁入強化學習領域。
2025/09/22
對抗樣本能以微小擾動欺騙模型,造成嚴重誤判。常見攻擊如 FGSM、PGD,防禦方法包括對抗訓練、輸入正則化、異常檢測與 API 控管。AI 安全性關乎醫療、自駕等關鍵應用,需多層次防護。
2025/09/22
對抗樣本能以微小擾動欺騙模型,造成嚴重誤判。常見攻擊如 FGSM、PGD,防禦方法包括對抗訓練、輸入正則化、異常檢測與 API 控管。AI 安全性關乎醫療、自駕等關鍵應用,需多層次防護。
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
AlphaGo 的開發,讓人工智慧在圍棋的研究讓更多人被看到,也看到它成熟的結果。現代的圍棋教學和棋手訓練,也或多或少會借鏡各類的AI系統做學習。然而,教學的歷程,過度追求AI的棋步和棋法,有時會讓小朋友難以理解。一步登天的方式,有時反而會讓同學走得更坎坷。
Thumbnail
AlphaGo 的開發,讓人工智慧在圍棋的研究讓更多人被看到,也看到它成熟的結果。現代的圍棋教學和棋手訓練,也或多或少會借鏡各類的AI系統做學習。然而,教學的歷程,過度追求AI的棋步和棋法,有時會讓小朋友難以理解。一步登天的方式,有時反而會讓同學走得更坎坷。
Thumbnail
在開始學習計畫前的三個問題 為什麼學? 該學什麼? 如何去學? 為什麼學的主要歸類 本質性的學習 為了學習而去學習 不確定將來如何使用 功能性的學習 學習這個技能或主題可以幫助自己達成目標 該學什麼? 概念 若某些事物需要被理解而非只是記憶,就屬於概念 ex: 學習人工智能
Thumbnail
在開始學習計畫前的三個問題 為什麼學? 該學什麼? 如何去學? 為什麼學的主要歸類 本質性的學習 為了學習而去學習 不確定將來如何使用 功能性的學習 學習這個技能或主題可以幫助自己達成目標 該學什麼? 概念 若某些事物需要被理解而非只是記憶,就屬於概念 ex: 學習人工智能
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如 AI說書 - 從0開始 - 78 所述,經過 AI說書 - 從0開始 - 74 到目前為止的實驗,應可以漸漸感受到 Transformer 模型如何從數學層面漸漸往
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
延續上週提到的,「有哪些不訓練模型的情況下,能夠強化語言模型的能力」,這堂課接續介紹其中第 3、4 個方法
Thumbnail
這一節課說明,如何透過改變給模型的指示或咒語(prompt),來得到不同的結果 。如果直接說結論的話會是,在今天語言模型的能力之下,我們只要交代清楚任務就好,可以包括背景以及需求。而這節課很像是一堂模型咒語的歷史課 XD
Thumbnail
這一節課說明,如何透過改變給模型的指示或咒語(prompt),來得到不同的結果 。如果直接說結論的話會是,在今天語言模型的能力之下,我們只要交代清楚任務就好,可以包括背景以及需求。而這節課很像是一堂模型咒語的歷史課 XD
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News