強化學習研析

更新 發佈閱讀 3 分鐘

近年來,人工智慧(AI)領域有許多讓人興奮的新研究。AlphaGo擊敗了圍棋界最頂尖的職業選手。不久之後,其衍生演算法AlphaGo Zero在沒有人類知識監督學習的情況下以100-0的比分擊敗了AlphaGo。在DOTA2的1v1比賽中,頂級職業玩家輸給了OpenAI開發的機器人。了解這些後,很難不對這些演算法背後的原理感到好奇—強化學習(Reinforcement Learning, RL)。

接下來這篇文章會簡要地概述強化學習這個領域。首先會介紹幾個基本概念,然後深入探討解決RL問題的經典方法。希望這篇文章能成為新手的良好起點,為未來的研究奠定基石。


強化學習的基本流程

代理人(Agent):代理人是解決問題的電腦程式或機器人等。例如,可以想像成在遊戲中控制玩家角色的角色。

環境(Environment):代理人活動的場所或世界。例如,遊戲的關卡或機器人活動的房間等,代理人能夠影響的對象。狀態(State):表示環境當前狀況的資訊。例如,西洋棋的棋盤狀態,或在自動駕駛汽車中,目前車輛的位置和速度等都屬於狀態。

行動(Action):代理人可以做出的選擇或動作。例如,向右移動、跳躍、移動西洋棋的棋子等,在環境中可以選擇的動作。

獎勵(Reward):代理人根據行動結果獲得的「獎勵」或「懲罰」。例如,在遊戲中得分增加是獎勵,錯誤行動導致遊戲結束則是懲罰。強化學習的目標


代理人學習「在哪種狀態下採取什麼行動可以獲得最多獎勵」。也就是說,強化學習的目標是讓代理人通過反覆試驗來找到最佳的行動模式。例如,考慮一個掃地機器人。一開始可能會隨機移動,但隨著時間推移,它會找到一條能夠避開家具並高效清潔的路線。機器人學習哪個方向前進可以清理更多垃圾,並逐漸變得更加熟練。

具體例子: 聖誕老人的送禮策略

想像聖誕老人是一個強化學習的代理人,他的目標是在聖誕夜盡可能多地送出禮物。


初始階段:

聖誕老人一開始可能會隨機選擇路線和停靠點。他可能會在某些地方停留太久,或是錯過一些房子。


學習過程:

隨著每年的經驗累積,聖誕老人會逐漸學習:

哪些路線可以更快地到達目的地

如何有效地安排停靠順序

在每個家庭停留的最佳時間


獎勵機制:

成功送出禮物:正面獎勵

錯過房子或遲到:負面獎勵


最佳策略:

經過多年的學習,聖誕老人最終會找到一個最佳的送禮策略,能夠在有限的時間內送出最多的禮物。


raw-image



Reference

  1. https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
  2. https://arxiv.org/abs/2412.05265
留言
avatar-img
留言分享你的想法!
avatar-img
Kiki的沙龍
3會員
45內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
Kiki的沙龍的其他內容
2025/04/27
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
2025/04/27
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
2025/04/20
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
2025/04/20
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
2025/04/06
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!
2025/04/06
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
近年來,人工智慧(AI)領域有許多讓人興奮的新研究。AlphaGo擊敗了圍棋界最頂尖的職業選手。不久之後,其衍生演算法AlphaGo Zero在沒有人類知識監督學習的情況下以100-0的比分擊敗了AlphaGo。在DOTA2的1v1比賽中,頂級職業玩家輸給了OpenAI開發的機器人。
Thumbnail
近年來,人工智慧(AI)領域有許多讓人興奮的新研究。AlphaGo擊敗了圍棋界最頂尖的職業選手。不久之後,其衍生演算法AlphaGo Zero在沒有人類知識監督學習的情況下以100-0的比分擊敗了AlphaGo。在DOTA2的1v1比賽中,頂級職業玩家輸給了OpenAI開發的機器人。
Thumbnail
對於決策者而言,提升決策品質具有極為重要的意義。決策者可透過反思過去與相關利害關係人互動的經驗,包括:競爭者、同行和同事的交流,從中獲得寶貴的學習經驗。同時,也可以尋求培訓夥伴,模擬實際對手進行戰略互動,進一步提升自身的決策能力。這樣的實踐有助於拓展視野,增進洞察力,提高在複雜情境中的應變能力。
Thumbnail
對於決策者而言,提升決策品質具有極為重要的意義。決策者可透過反思過去與相關利害關係人互動的經驗,包括:競爭者、同行和同事的交流,從中獲得寶貴的學習經驗。同時,也可以尋求培訓夥伴,模擬實際對手進行戰略互動,進一步提升自身的決策能力。這樣的實踐有助於拓展視野,增進洞察力,提高在複雜情境中的應變能力。
Thumbnail
遊戲一直是娛樂的一個重要組成部分,而現在,人工智能(AI)和機器學習正為遊戲世界帶來全新的維度。本文將深入探討AI在遊戲中的應用,以及它如何為玩家提供更智能、更具挑戰性的體驗。 遊戲中的機器學習和人工智能 1. 智能敵人: AI已經能夠模擬智能敵人的行為,使遊戲更具挑戰性。敵人能夠學習玩家的策略
Thumbnail
遊戲一直是娛樂的一個重要組成部分,而現在,人工智能(AI)和機器學習正為遊戲世界帶來全新的維度。本文將深入探討AI在遊戲中的應用,以及它如何為玩家提供更智能、更具挑戰性的體驗。 遊戲中的機器學習和人工智能 1. 智能敵人: AI已經能夠模擬智能敵人的行為,使遊戲更具挑戰性。敵人能夠學習玩家的策略
Thumbnail
本文深入探討機器學習的核心概念,包括迴歸、分類和生成式學習。我們解釋了如何使用特定函式來實現期望任務,並將此過程分為設定範圍、確立標準和實現目標三個階段。文章還介紹了如何使用機器學習來訓練和測試模型,並以寶可夢應用為例說明迴歸和分類問題。
Thumbnail
本文深入探討機器學習的核心概念,包括迴歸、分類和生成式學習。我們解釋了如何使用特定函式來實現期望任務,並將此過程分為設定範圍、確立標準和實現目標三個階段。文章還介紹了如何使用機器學習來訓練和測試模型,並以寶可夢應用為例說明迴歸和分類問題。
Thumbnail
大學生的福音!不用再費心解微積分、線性代數、微分方程的習題了!但這真的是「福音」嗎?AI 已經可以解出大學程度的數學問題,並且以人類聽得懂得方式講解。
Thumbnail
大學生的福音!不用再費心解微積分、線性代數、微分方程的習題了!但這真的是「福音」嗎?AI 已經可以解出大學程度的數學問題,並且以人類聽得懂得方式講解。
Thumbnail
其實 我標題很想下:   把高永夏打到退出棋壇的神秘高手 — Alphago
Thumbnail
其實 我標題很想下:   把高永夏打到退出棋壇的神秘高手 — Alphago
Thumbnail
我們都以為讀書要專注,實際上,分心比較好! 被《跨能致勝》拿來比較的格拉威爾大作《異數》中有個有名的例子是一名教練可以在網球選手發球前,看出會不會「雙發失誤」,而且屢試不爽,他以為他有預測能力,其實是長期訓練讓他成為專家了。 從這些例子,格拉威爾提出了「1萬小時理論」(我不覺得是定律),就是說要煉成
Thumbnail
我們都以為讀書要專注,實際上,分心比較好! 被《跨能致勝》拿來比較的格拉威爾大作《異數》中有個有名的例子是一名教練可以在網球選手發球前,看出會不會「雙發失誤」,而且屢試不爽,他以為他有預測能力,其實是長期訓練讓他成為專家了。 從這些例子,格拉威爾提出了「1萬小時理論」(我不覺得是定律),就是說要煉成
Thumbnail
現代流圍棋五原則能擊敗(干擾)「ZenGo 九段」與「Katrain 9段」電腦圍棋,其意義類似當今時髦的愚弄人工智慧的「干擾遊戲」。也同時證明了,人類的圍棋智慧卻是「由上而下」(Top-Down)的「知識策略」,最終可能戰勝有史以來最強的AI人工智慧電腦圍棋─ AlphaGo Zero。
Thumbnail
現代流圍棋五原則能擊敗(干擾)「ZenGo 九段」與「Katrain 9段」電腦圍棋,其意義類似當今時髦的愚弄人工智慧的「干擾遊戲」。也同時證明了,人類的圍棋智慧卻是「由上而下」(Top-Down)的「知識策略」,最終可能戰勝有史以來最強的AI人工智慧電腦圍棋─ AlphaGo Zero。
Thumbnail
現代流圍棋五原則能擊敗(干擾)「ZenGo 九段」與「Katrain 9段」電腦圍棋,其意義類似當今時髦的愚弄人工智慧的「干擾遊戲」。也同時證明了,人類的圍棋智慧卻是「由上而下」(Top-Down)的「知識策略」,最終可能戰勝有史以來最強的AI人工智慧電腦圍棋─ AlphaGo Zero。
Thumbnail
現代流圍棋五原則能擊敗(干擾)「ZenGo 九段」與「Katrain 9段」電腦圍棋,其意義類似當今時髦的愚弄人工智慧的「干擾遊戲」。也同時證明了,人類的圍棋智慧卻是「由上而下」(Top-Down)的「知識策略」,最終可能戰勝有史以來最強的AI人工智慧電腦圍棋─ AlphaGo Zero。
Thumbnail
不論媒體如何擬人化AlphaGo,它也從未「理解」遊戲帶給人類的愉悅感,與極度專注當下而超越當下的心流。什麼樣的「遊戲」可以讓不同人、不同世代,從中獲得刺激與樂趣?怎樣的「規則」可以不斷反覆的玩、幾百年的玩,還不被「破解」,仍有尋找到創意策略的樂趣?換句話說,AlphaGo能成為世界圍棋冠軍,但它不
Thumbnail
不論媒體如何擬人化AlphaGo,它也從未「理解」遊戲帶給人類的愉悅感,與極度專注當下而超越當下的心流。什麼樣的「遊戲」可以讓不同人、不同世代,從中獲得刺激與樂趣?怎樣的「規則」可以不斷反覆的玩、幾百年的玩,還不被「破解」,仍有尋找到創意策略的樂趣?換句話說,AlphaGo能成為世界圍棋冠軍,但它不
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News