強化學習的基本流程

強化學習研析

2024/12/10 更新2024/12/08 發佈閱讀 3 分鐘

近年來，人工智慧（AI）領域有許多讓人興奮的新研究。AlphaGo擊敗了圍棋界最頂尖的職業選手。不久之後，其衍生演算法AlphaGo Zero在沒有人類知識監督學習的情況下以100-0的比分擊敗了AlphaGo。在DOTA2的1v1比賽中，頂級職業玩家輸給了OpenAI開發的機器人。了解這些後，很難不對這些演算法背後的原理感到好奇—強化學習（Reinforcement Learning, RL）。

接下來這篇文章會簡要地概述強化學習這個領域。首先會介紹幾個基本概念，然後深入探討解決RL問題的經典方法。希望這篇文章能成為新手的良好起點，為未來的研究奠定基石。

強化學習的基本流程

代理人（Agent）：代理人是解決問題的電腦程式或機器人等。例如，可以想像成在遊戲中控制玩家角色的角色。

環境（Environment）：代理人活動的場所或世界。例如，遊戲的關卡或機器人活動的房間等，代理人能夠影響的對象。狀態（State）：表示環境當前狀況的資訊。例如，西洋棋的棋盤狀態，或在自動駕駛汽車中，目前車輛的位置和速度等都屬於狀態。

行動（Action）：代理人可以做出的選擇或動作。例如，向右移動、跳躍、移動西洋棋的棋子等，在環境中可以選擇的動作。

獎勵（Reward）：代理人根據行動結果獲得的「獎勵」或「懲罰」。例如，在遊戲中得分增加是獎勵，錯誤行動導致遊戲結束則是懲罰。強化學習的目標

代理人學習「在哪種狀態下採取什麼行動可以獲得最多獎勵」。也就是說，強化學習的目標是讓代理人通過反覆試驗來找到最佳的行動模式。例如，考慮一個掃地機器人。一開始可能會隨機移動，但隨著時間推移，它會找到一條能夠避開家具並高效清潔的路線。機器人學習哪個方向前進可以清理更多垃圾，並逐漸變得更加熟練。

具體例子: 聖誕老人的送禮策略

想像聖誕老人是一個強化學習的代理人,他的目標是在聖誕夜盡可能多地送出禮物。

初始階段:

聖誕老人一開始可能會隨機選擇路線和停靠點。他可能會在某些地方停留太久,或是錯過一些房子。

學習過程:

隨著每年的經驗累積,聖誕老人會逐漸學習:

哪些路線可以更快地到達目的地

如何有效地安排停靠順序

在每個家庭停留的最佳時間

獎勵機制:

成功送出禮物:正面獎勵

錯過房子或遲到:負面獎勵

最佳策略:

經過多年的學習,聖誕老人最終會找到一個最佳的送禮策略,能夠在有限的時間內送出最多的禮物。

raw-image

Reference

https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
https://arxiv.org/abs/2412.05265

#AI人工智慧

留言

留言分享你的想法！

Kiki的沙龍

3會員

48內容數

心繫正體中文的科學家，立志使用正體中文撰寫文章。此沙龍預計涵蓋各項資訊科技知識分享與學習心得

Kiki的沙龍的其他內容

2025/04/27

自己在家組Ollama大語言模型伺服器

Meta 推出了開源大型語言模型 Llama。這一代特別引人注目，因為 80 億參數的模型小到可以在家用電腦上運行，效能卻不輸比它大十倍的模型。在許多應用場景下，它給出的回應品質已經能媲美 GPT-4。在這篇文章裡，我會說明自架 Llama 3 的優缺點，並提供設定方式與資源，讓讀者也能輕鬆動手。

2025/04/27

自己在家組Ollama大語言模型伺服器

Meta 推出了開源大型語言模型 Llama。這一代特別引人注目，因為 80 億參數的模型小到可以在家用電腦上運行，效能卻不輸比它大十倍的模型。在許多應用場景下，它給出的回應品質已經能媲美 GPT-4。在這篇文章裡，我會說明自架 Llama 3 的優缺點，並提供設定方式與資源，讓讀者也能輕鬆動手。

2025/04/20

建立人工智慧代理人實務指引

這份實務指引旨在協助產品和工程團隊入門大型語言模型（LLM）驅動的人工智慧代理人建構，它定義了代理的核心概念，例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理，特別是在傳統自動化方法受限的複雜情境，並深入探討了代理設計的基礎要素，包括模型選擇、工具整合及指令設置。

2025/04/20

建立人工智慧代理人實務指引

這份實務指引旨在協助產品和工程團隊入門大型語言模型（LLM）驅動的人工智慧代理人建構，它定義了代理的核心概念，例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理，特別是在傳統自動化方法受限的複雜情境，並深入探討了代理設計的基礎要素，包括模型選擇、工具整合及指令設置。

2025/04/06

用Docker Model Runner 輕鬆在本地執行 LLM

這篇文章將搭配簡單的範例，介紹最近推出的 Docker Model Runner。內容比較隨意粗略，希望能成為讓讀者了解這項工具的契機！

2025/04/06

用Docker Model Runner 輕鬆在本地執行 LLM

這篇文章將搭配簡單的範例，介紹最近推出的 Docker Model Runner。內容比較隨意粗略，希望能成為讓讀者了解這項工具的契機！

你可能也想看

強化學習研析

近年來，人工智慧（AI）領域有許多讓人興奮的新研究。AlphaGo擊敗了圍棋界最頂尖的職業選手。不久之後，其衍生演算法AlphaGo Zero在沒有人類知識監督學習的情況下以100-0的比分擊敗了AlphaGo。在DOTA2的1v1比賽中，頂級職業玩家輸給了OpenAI開發的機器人。

#機器學習#人工智慧#AI人工智慧

2024/12/08

強化學習研析

近年來，人工智慧（AI）領域有許多讓人興奮的新研究。AlphaGo擊敗了圍棋界最頂尖的職業選手。不久之後，其衍生演算法AlphaGo Zero在沒有人類知識監督學習的情況下以100-0的比分擊敗了AlphaGo。在DOTA2的1v1比賽中，頂級職業玩家輸給了OpenAI開發的機器人。

#機器學習#人工智慧#AI人工智慧

2024/12/08

識商的沙龍

使用人工智慧進行策略培訓

對於決策者而言，提升決策品質具有極為重要的意義。決策者可透過反思過去與相關利害關係人互動的經驗，包括：競爭者、同行和同事的交流，從中獲得寶貴的學習經驗。同時，也可以尋求培訓夥伴，模擬實際對手進行戰略互動，進一步提升自身的決策能力。這樣的實踐有助於拓展視野，增進洞察力，提高在複雜情境中的應變能力。

#AI#商業#策略

2023/12/05

識商的沙龍

使用人工智慧進行策略培訓

對於決策者而言，提升決策品質具有極為重要的意義。決策者可透過反思過去與相關利害關係人互動的經驗，包括：競爭者、同行和同事的交流，從中獲得寶貴的學習經驗。同時，也可以尋求培訓夥伴，模擬實際對手進行戰略互動，進一步提升自身的決策能力。這樣的實踐有助於拓展視野，增進洞察力，提高在複雜情境中的應變能力。

#AI#商業#策略

2023/12/05

AI導遊｜傑森王的沙龍

AI和遊戲：背後的智慧和娛樂

遊戲一直是娛樂的一個重要組成部分，而現在，人工智能（AI）和機器學習正為遊戲世界帶來全新的維度。本文將深入探討AI在遊戲中的應用，以及它如何為玩家提供更智能、更具挑戰性的體驗。遊戲中的機器學習和人工智能 1. 智能敵人： AI已經能夠模擬智能敵人的行為，使遊戲更具挑戰性。敵人能夠學習玩家的策略

#遊戲#人工智能#玩家

2023/09/11

AI導遊｜傑森王的沙龍

AI和遊戲：背後的智慧和娛樂

遊戲一直是娛樂的一個重要組成部分，而現在，人工智能（AI）和機器學習正為遊戲世界帶來全新的維度。本文將深入探討AI在遊戲中的應用，以及它如何為玩家提供更智能、更具挑戰性的體驗。遊戲中的機器學習和人工智能 1. 智能敵人： AI已經能夠模擬智能敵人的行為，使遊戲更具挑戰性。敵人能夠學習玩家的策略

#遊戲#人工智能#玩家

2023/09/11

Ted Chen的沙龍

快速瞭解機器學習基本原理

本文深入探討機器學習的核心概念，包括迴歸、分類和生成式學習。我們解釋了如何使用特定函式來實現期望任務，並將此過程分為設定範圍、確立標準和實現目標三個階段。文章還介紹了如何使用機器學習來訓練和測試模型，並以寶可夢應用為例說明迴歸和分類問題。

#機器學習#生成式學習#機器學習訓練

2023/06/02

Ted Chen的沙龍

快速瞭解機器學習基本原理

本文深入探討機器學習的核心概念，包括迴歸、分類和生成式學習。我們解釋了如何使用特定函式來實現期望任務，並將此過程分為設定範圍、確立標準和實現目標三個階段。文章還介紹了如何使用機器學習來訓練和測試模型，並以寶可夢應用為例說明迴歸和分類問題。

#機器學習#生成式學習#機器學習訓練

2023/06/02

超中二物理宅的沙龍

第341話：掰掰！微積分作業！

大學生的福音！不用再費心解微積分、線性代數、微分方程的習題了！但這真的是「福音」嗎？AI 已經可以解出大學程度的數學問題，並且以人類聽得懂得方式講解。

#人工智慧#微積分#數學

2022/11/23

超中二物理宅的沙龍

第341話：掰掰！微積分作業！

大學生的福音！不用再費心解微積分、線性代數、微分方程的習題了！但這真的是「福音」嗎？AI 已經可以解出大學程度的數學問題，並且以人類聽得懂得方式講解。

#人工智慧#微積分#數學

2022/11/23

史塔克實驗室的沙龍

把李世乭打到退出棋壇的神秘高手 - AlphaGo

其實我標題很想下: 把高永夏打到退出棋壇的神秘高手 — Alphago

#機器學習#人工智慧#AlphaGo

2020/09/24

史塔克實驗室的沙龍

把李世乭打到退出棋壇的神秘高手 - AlphaGo

其實我標題很想下: 把高永夏打到退出棋壇的神秘高手 — Alphago

#機器學習#人工智慧#AlphaGo

2020/09/24

六叔觀察站的沙龍

【跨能致勝 1】「和善」與「不善」的學習環境

我們都以為讀書要專注，實際上，分心比較好！被《跨能致勝》拿來比較的格拉威爾大作《異數》中有個有名的例子是一名教練可以在網球選手發球前，看出會不會「雙發失誤」，而且屢試不爽，他以為他有預測能力，其實是長期訓練讓他成為專家了。從這些例子，格拉威爾提出了「1萬小時理論」（我不覺得是定律），就是說要煉成

#SIMPRO#跨能致勝#教育

2020/09/02

六叔觀察站的沙龍

【跨能致勝 1】「和善」與「不善」的學習環境

我們都以為讀書要專注，實際上，分心比較好！被《跨能致勝》拿來比較的格拉威爾大作《異數》中有個有名的例子是一名教練可以在網球選手發球前，看出會不會「雙發失誤」，而且屢試不爽，他以為他有預測能力，其實是長期訓練讓他成為專家了。從這些例子，格拉威爾提出了「1萬小時理論」（我不覺得是定律），就是說要煉成

#SIMPRO#跨能致勝#教育

2020/09/02

陳華夫hwafuchen的沙龍

「人工智慧」的AlphaGo「圍棋革命」─圍棋的本質（1）

現代流圍棋五原則能擊敗（干擾）「ZenGo 九段」與「Katrain 9段」電腦圍棋，其意義類似當今時髦的愚弄人工智慧的「干擾遊戲」。也同時證明了，人類的圍棋智慧卻是「由上而下」（Top-Down）的「知識策略」，最終可能戰勝有史以來最強的AI人工智慧電腦圍棋─ AlphaGo Zero。

#蒙特卡洛樹搜索#悔棋#AlphaGoLee

2020/05/28

陳華夫hwafuchen的沙龍

「人工智慧」的AlphaGo「圍棋革命」─圍棋的本質（1）

現代流圍棋五原則能擊敗（干擾）「ZenGo 九段」與「Katrain 9段」電腦圍棋，其意義類似當今時髦的愚弄人工智慧的「干擾遊戲」。也同時證明了，人類的圍棋智慧卻是「由上而下」（Top-Down）的「知識策略」，最終可能戰勝有史以來最強的AI人工智慧電腦圍棋─ AlphaGo Zero。

#蒙特卡洛樹搜索#悔棋#AlphaGoLee

2020/05/28

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News