強化學習研析

更新於 2024/12/10發佈於 2024/12/08閱讀時間約 3 分鐘

近年來，人工智慧（AI）領域有許多讓人興奮的新研究。AlphaGo擊敗了圍棋界最頂尖的職業選手。不久之後，其衍生演算法AlphaGo Zero在沒有人類知識監督學習的情況下以100-0的比分擊敗了AlphaGo。在DOTA2的1v1比賽中，頂級職業玩家輸給了OpenAI開發的機器人。了解這些後，很難不對這些演算法背後的原理感到好奇—強化學習（Reinforcement Learning, RL）。

接下來這篇文章會簡要地概述強化學習這個領域。首先會介紹幾個基本概念，然後深入探討解決RL問題的經典方法。希望這篇文章能成為新手的良好起點，為未來的研究奠定基石。

強化學習的基本流程

代理人（Agent）：代理人是解決問題的電腦程式或機器人等。例如，可以想像成在遊戲中控制玩家角色的角色。

環境（Environment）：代理人活動的場所或世界。例如，遊戲的關卡或機器人活動的房間等，代理人能夠影響的對象。狀態（State）：表示環境當前狀況的資訊。例如，西洋棋的棋盤狀態，或在自動駕駛汽車中，目前車輛的位置和速度等都屬於狀態。

行動（Action）：代理人可以做出的選擇或動作。例如，向右移動、跳躍、移動西洋棋的棋子等，在環境中可以選擇的動作。

獎勵（Reward）：代理人根據行動結果獲得的「獎勵」或「懲罰」。例如，在遊戲中得分增加是獎勵，錯誤行動導致遊戲結束則是懲罰。強化學習的目標

代理人學習「在哪種狀態下採取什麼行動可以獲得最多獎勵」。也就是說，強化學習的目標是讓代理人通過反覆試驗來找到最佳的行動模式。例如，考慮一個掃地機器人。一開始可能會隨機移動，但隨著時間推移，它會找到一條能夠避開家具並高效清潔的路線。機器人學習哪個方向前進可以清理更多垃圾，並逐漸變得更加熟練。

具體例子: 聖誕老人的送禮策略

想像聖誕老人是一個強化學習的代理人,他的目標是在聖誕夜盡可能多地送出禮物。

初始階段:

聖誕老人一開始可能會隨機選擇路線和停靠點。他可能會在某些地方停留太久,或是錯過一些房子。

學習過程:

隨著每年的經驗累積,聖誕老人會逐漸學習:

哪些路線可以更快地到達目的地

如何有效地安排停靠順序

在每個家庭停留的最佳時間

獎勵機制:

成功送出禮物:正面獎勵

錯過房子或遲到:負面獎勵

最佳策略:

經過多年的學習,聖誕老人最終會找到一個最佳的送禮策略,能夠在有限的時間內送出最多的禮物。

Reference

https://www.kaggle.com/learn/intro-to-game-ai-and-reinforcement-learning
https://arxiv.org/abs/2412.05265

強化學習的基本流程

1會員

35內容數

心繫正體中文的科學家，立志使用正體中文撰寫文章。此沙龍預計涵蓋各項資訊科技知識分享與學習心得

留言0

查看全部

發表第一個留言支持創作者！

Kiki的沙龍的其他內容

生成對抗網路 GAN (Generative Adversarial Network)

在利用深度學習的生成模型中，生成對抗網路（Generative Adversarial Network, GAN）是研究應用方法最多的一種，許多人可能知道它是「讓兩個網路相互競爭來學習」的架構。

#人工智慧 #機器學習 #AI人工智慧

使用量子GAN

本文介紹的論文是IBM和摩根大通的聯合研究論文《Quantum Generative Adversarial Networks for Learning and Loading Random Distributions》，該論文使用量子機器學習來以少量閘重現任意機率分佈。

#Quantum #QuantumComputing #人工智慧

強化微調（Reinforcement Fine-Tuning）

本文介紹一個研究其提出一種透過接收人類回饋來提高文字生成圖像品質的方法。眾所周知，人類回饋有助於提升文字到圖像生成模型的性能，但傳統方法首先需要學習一個獎勵函數（reward function）來擷取和表達人類的期望，然後根據該獎勵函數改進模型。

#機器學習 #人工智慧 #AI人工智慧

使用GPT-4建構RAG系統

在這篇文章中，我們將使用OpenAI的GPT-4模型來構建一個進階的RAG系統。透過利用GPT-4的強大能力，我們可以生成更為精確的回答。

#機器學習 #人工智慧 #生成

Graph RAG 簡介

檢索增強生成（RAG）在檢索特定資訊時有效，但不適合回答整個語料庫的全域問題。這是因為全域問題需要關注查詢焦點摘要（QFS）而非明確的資訊檢索。

#機器學習 #AI人工智慧 #人工智慧

RAG（Retrieval-Augmented Generation，檢索增強生成）

RAG（Retrieval-Augmented Generation，檢索增強生成）是一種提高生成式AI回答精確度的方法，本文簡要總結了RAG的相關內容。

#機器學習 #人工智慧 #AI人工智慧

生成對抗網路 GAN (Generative Adversarial Network)

#人工智慧 #機器學習 #AI人工智慧

使用量子GAN

#Quantum #QuantumComputing #人工智慧

強化微調（Reinforcement Fine-Tuning）

#機器學習 #人工智慧 #AI人工智慧

使用GPT-4建構RAG系統

在這篇文章中，我們將使用OpenAI的GPT-4模型來構建一個進階的RAG系統。透過利用GPT-4的強大能力，我們可以生成更為精確的回答。

#機器學習 #人工智慧 #生成

Graph RAG 簡介

#機器學習 #AI人工智慧 #人工智慧

RAG（Retrieval-Augmented Generation，檢索增強生成）

RAG（Retrieval-Augmented Generation，檢索增強生成）是一種提高生成式AI回答精確度的方法，本文簡要總結了RAG的相關內容。

你可能也想看

《表達與社交學》95 抱怨者嚇走強者，提問者吸引強者，所以貴人運天差地遠

提問的內容越是清晰，強者、聰明人越能在短時間內做判斷、給出精準的建議，他們會對你產生「好印象」，認定你是「積極」的人，有機會、好人脈會不自覺地想引薦給你

#後沙發 #貴人 #人脈

徐倪妍-離職公務員的一人品牌經營學

2024/08/07

未來學會這項AI無法替代的稀缺能力人生就輕鬆了

AI高速發展，現今一天的變幻超過古代十年的發展，不少人對未來充滿焦慮、迷茫，但一直以來都有一項能力，不僅人人都能學、還無法被AI取代﹔而貫穿古今，只要精通這能力，人生普遍差不了…

#說話 #好好說話 #溝通

烏托邦邦的沙龍

2024/08/06

『人工智能』AI的崛起早已對人類產生威脅？！

人工智能:革命性技術的崛起與挑戰 1. 什麼是人工智能? 人工智能(AI)是指由人類創造的機器或系統,能夠模仿人類智能,執行通常需要人類智能才能完成的任務。這包括學習、問題解決、語言理解、視覺感知等能力。AI系統可以處理大量數據,識別模式,並根據這些信息做出決策或預測。 2.

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習 #人工智慧 #數據

熙哥生意之道

2024/07/26

人工智能AI和機器學習ML：業務升級的新動能

在當今快速發展的技術時代，人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程，AI和ML的應用範圍日益廣泛，為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢？

#AI #ML #人工智能

Darren的沙龍

2024/07/19

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT #AlphaGo #人工智慧