強化學習研析

更新於 2024/12/10閱讀時間約 3 分鐘

近年來,人工智慧(AI)領域有許多讓人興奮的新研究。AlphaGo擊敗了圍棋界最頂尖的職業選手。不久之後,其衍生演算法AlphaGo Zero在沒有人類知識監督學習的情況下以100-0的比分擊敗了AlphaGo。在DOTA2的1v1比賽中,頂級職業玩家輸給了OpenAI開發的機器人。了解這些後,很難不對這些演算法背後的原理感到好奇—強化學習(Reinforcement Learning, RL)。

接下來這篇文章會簡要地概述強化學習這個領域。首先會介紹幾個基本概念,然後深入探討解決RL問題的經典方法。希望這篇文章能成為新手的良好起點,為未來的研究奠定基石。


強化學習的基本流程

代理人(Agent):代理人是解決問題的電腦程式或機器人等。例如,可以想像成在遊戲中控制玩家角色的角色。

環境(Environment):代理人活動的場所或世界。例如,遊戲的關卡或機器人活動的房間等,代理人能夠影響的對象。狀態(State):表示環境當前狀況的資訊。例如,西洋棋的棋盤狀態,或在自動駕駛汽車中,目前車輛的位置和速度等都屬於狀態。

行動(Action):代理人可以做出的選擇或動作。例如,向右移動、跳躍、移動西洋棋的棋子等,在環境中可以選擇的動作。

獎勵(Reward):代理人根據行動結果獲得的「獎勵」或「懲罰」。例如,在遊戲中得分增加是獎勵,錯誤行動導致遊戲結束則是懲罰。強化學習的目標


代理人學習「在哪種狀態下採取什麼行動可以獲得最多獎勵」。也就是說,強化學習的目標是讓代理人通過反覆試驗來找到最佳的行動模式。例如,考慮一個掃地機器人。一開始可能會隨機移動,但隨著時間推移,它會找到一條能夠避開家具並高效清潔的路線。機器人學習哪個方向前進可以清理更多垃圾,並逐漸變得更加熟練。

具體例子: 聖誕老人的送禮策略

想像聖誕老人是一個強化學習的代理人,他的目標是在聖誕夜盡可能多地送出禮物。


初始階段:

聖誕老人一開始可能會隨機選擇路線和停靠點。他可能會在某些地方停留太久,或是錯過一些房子。


學習過程:

隨著每年的經驗累積,聖誕老人會逐漸學習:

哪些路線可以更快地到達目的地

如何有效地安排停靠順序

在每個家庭停留的最佳時間


獎勵機制:

成功送出禮物:正面獎勵

錯過房子或遲到:負面獎勵


最佳策略:

經過多年的學習,聖誕老人最終會找到一個最佳的送禮策略,能夠在有限的時間內送出最多的禮物。


raw-image



Reference

  1. https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
  2. https://arxiv.org/abs/2412.05265
avatar-img
0會員
31內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
風清揚的沙龍 的其他內容
在利用深度學習的生成模型中,生成對抗網路 (Generative Adversarial Network, GAN)是研究應用方法最多的一種,許多人可能知道它是「讓兩個網路相互競爭來學習」的架構。
本文介紹的論文是IBM和摩根大通的聯合研究論文《Quantum Generative Adversarial Networks for Learning and Loading Random Distributions》,該論文使用量子機器學習來以少量閘重現任意機率分佈。
本文介紹一個研究其提出一種透過接收人類回饋來提高文字生成圖像品質的方法。眾所周知,人類回饋有助於提升文字到圖像生成模型的性能,但傳統方法首先需要學習一個獎勵函數(reward function)來擷取和表達人類的期望,然後根據該獎勵函數改進模型。
在這篇文章中,我們將使用OpenAI的GPT-4模型來構建一個進階的RAG系統。透過利用GPT-4的強大能力,我們可以生成更為精確的回答。
檢索增強生成(RAG)在檢索特定資訊時有效,但不適合回答整個語料庫的全域問題。這是因為全域問題需要關注查詢焦點摘要(QFS)而非明確的資訊檢索。
RAG(Retrieval-Augmented Generation,檢索增強生成)是一種提高生成式AI回答精確度的方法,本文簡要總結了RAG的相關內容。
在利用深度學習的生成模型中,生成對抗網路 (Generative Adversarial Network, GAN)是研究應用方法最多的一種,許多人可能知道它是「讓兩個網路相互競爭來學習」的架構。
本文介紹的論文是IBM和摩根大通的聯合研究論文《Quantum Generative Adversarial Networks for Learning and Loading Random Distributions》,該論文使用量子機器學習來以少量閘重現任意機率分佈。
本文介紹一個研究其提出一種透過接收人類回饋來提高文字生成圖像品質的方法。眾所周知,人類回饋有助於提升文字到圖像生成模型的性能,但傳統方法首先需要學習一個獎勵函數(reward function)來擷取和表達人類的期望,然後根據該獎勵函數改進模型。
在這篇文章中,我們將使用OpenAI的GPT-4模型來構建一個進階的RAG系統。透過利用GPT-4的強大能力,我們可以生成更為精確的回答。
檢索增強生成(RAG)在檢索特定資訊時有效,但不適合回答整個語料庫的全域問題。這是因為全域問題需要關注查詢焦點摘要(QFS)而非明確的資訊檢索。
RAG(Retrieval-Augmented Generation,檢索增強生成)是一種提高生成式AI回答精確度的方法,本文簡要總結了RAG的相關內容。
你可能也想看
Google News 追蹤
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
AI高速發展,現今一天的變幻超過古代十年的發展,不少人對未來充滿焦慮、迷茫,但一直以來都有一項能力,不僅人人都能學、還無法被AI取代﹔而貫穿古今,只要精通這能力,人生普遍差不了…
Thumbnail
人工智能:革命性技術的崛起與挑戰 1. 什麼是人工智能? 人工智能(AI)是指由人類創造的機器或系統,能夠模仿人類智能,執行通常需要人類智能才能完成的任務。這包括學習、問題解決、語言理解、視覺感知等能力。AI系統可以處理大量數據,識別模式,並根據這些信息做出決策或預測。 2.
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
AlphaGo 的開發,讓人工智慧在圍棋的研究讓更多人被看到,也看到它成熟的結果。現代的圍棋教學和棋手訓練,也或多或少會借鏡各類的AI系統做學習。然而,教學的歷程,過度追求AI的棋步和棋法,有時會讓小朋友難以理解。一步登天的方式,有時反而會讓同學走得更坎坷。
  但我還是想從AlphaGo談起。我想回到那個在當前時刻已經一點都不令人感到驚訝的,AlphaGo四比一擊敗李世乭的那個時間,去看人類圍棋發生了什麼事、去看AlphaGo在那當下做了什麼、以及李世乭在那裡經歷了什麼。這會是AI未來發展的縮影,也是人類未來發展的縮影。
Thumbnail
隨著AI技術的普及,瞭解AI工具的重要性。本文介紹AI工具的應用,分享最新的GPT-4o的功能和優勢,並提出AI與人類智慧相結合的見解。
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
Thumbnail
生成式人工智慧(AI)已成為當前科技領域的一大熱點,其能力不僅限於模擬人類智能,更能在多種非傳統計算任務中創造前所未有的內容。這篇文章將深入探討生成式AI的理論基礎、實際應用、代碼實踐,以及其商業應用、工具和公司等方面,提供一個全面的視角來了解這一迅速發展的領域。
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
AI高速發展,現今一天的變幻超過古代十年的發展,不少人對未來充滿焦慮、迷茫,但一直以來都有一項能力,不僅人人都能學、還無法被AI取代﹔而貫穿古今,只要精通這能力,人生普遍差不了…
Thumbnail
人工智能:革命性技術的崛起與挑戰 1. 什麼是人工智能? 人工智能(AI)是指由人類創造的機器或系統,能夠模仿人類智能,執行通常需要人類智能才能完成的任務。這包括學習、問題解決、語言理解、視覺感知等能力。AI系統可以處理大量數據,識別模式,並根據這些信息做出決策或預測。 2.
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
AlphaGo 的開發,讓人工智慧在圍棋的研究讓更多人被看到,也看到它成熟的結果。現代的圍棋教學和棋手訓練,也或多或少會借鏡各類的AI系統做學習。然而,教學的歷程,過度追求AI的棋步和棋法,有時會讓小朋友難以理解。一步登天的方式,有時反而會讓同學走得更坎坷。
  但我還是想從AlphaGo談起。我想回到那個在當前時刻已經一點都不令人感到驚訝的,AlphaGo四比一擊敗李世乭的那個時間,去看人類圍棋發生了什麼事、去看AlphaGo在那當下做了什麼、以及李世乭在那裡經歷了什麼。這會是AI未來發展的縮影,也是人類未來發展的縮影。
Thumbnail
隨著AI技術的普及,瞭解AI工具的重要性。本文介紹AI工具的應用,分享最新的GPT-4o的功能和優勢,並提出AI與人類智慧相結合的見解。
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
Thumbnail
生成式人工智慧(AI)已成為當前科技領域的一大熱點,其能力不僅限於模擬人類智能,更能在多種非傳統計算任務中創造前所未有的內容。這篇文章將深入探討生成式AI的理論基礎、實際應用、代碼實踐,以及其商業應用、工具和公司等方面,提供一個全面的視角來了解這一迅速發展的領域。