Q-Learning 學習機器人

發佈於程式

更新於 2025/01/04發佈於 2025/01/04閱讀時間約 8 分鐘

在「OpenAI Gym」的環境下，我們可以透過亂數方法找到「Frozen Lake」問題的多種解決路徑；但是要怎麼透過這麼多可能的路徑來進行讓行走於「Frozen Lake」的機器人具備學習能力的目標呢。

基本亂數移動機器人

首先，再回顧一下亂數取得路徑的方法；由於「Fronze Lake」機器每一步只有行走只有4種可能，因此我們可以改用「numpy.random.randint()」函數來取代「env.action_space.sample()」方便控制產生的「action」結果；改寫亂數機器人行走於「Fronzen Lake」的程式如下：

import numpy as np
np.random.seed(13)
epochs=400
for epoch in range(epochs):
    env.reset()
    path=[]
    observation=0
    terminated=False
    while (not terminated):
        action=np.random.randint(4)        
        path.append(action)
        observation, reward, terminated,_,_=env.step(action)
    if(reward>0):
        print('successful path:',path)
        print(env.render())

我們可以看到，在400次的亂數嘗試之後，會有一次成功的機會。

建立「Q-table」學習機器

接下來，每次如果找到一次成功過關的路徑，那我們就把這個路徑上經過位置相對應所作動的「action」加一，如下表；

所以程式可以再修改如下；

import numpy as np
table=np.zeros((16,4))
#--------------
np.random.seed(13)
epochs=400
for epoch in range(epochs):
    state=env.reset()
    path=[]
    terminated=False
    while (not terminated):
        action=np.random.randint(4)        
        path.append(action)
        observation, reward, terminated,_,_=env.step(action)
    if(reward>0):
        env.reset()
        for j in range(len(path)):
            action=path[j]
            observation,_,_,_,_=env.step(action)
            print(env.render())
            table[observation,action]+=1            
        print('successful path:',path)
print('table:',table)

從這樣的一張表格，我們就可以知道；如果機器人要通過「Frozen Lake」的話，在那一個位置 (observation)，作那一個動作 (action)，會有比較高的機會可以成功通過。這個表格，我們稱之為「Q-table」。所以，如果我們可以將亂數嘗試 2000 次之後的「Q-table」存下來，如下：

import numpy as np
table=np.zeros((16,4))
#--------------
np.random.seed(13)
epochs=2000
for epoch in range(epochs):
    state=env.reset()
    path=[]
    terminated=False
    while (not terminated):
        action=np.random.randint(4)        
        path.append(action)
        observation, reward, terminated,_,_=env.step(action)
    if(reward>0):
        env.reset()
        for j in range(len(path)):
            action=path[j]
            observation,_,_,_,_=env.step(action)
            table[observation,action]+=1            
print('table:',table)
#-------
np.save('qtable',table)

執行「Q-table」學習機器人

然後，修改原來亂數嘗試 400 次的程式；當機器人決定要移動的時候先作擲骰子來決定，要使用過去的「Q-table」經驗或是亂數嘗試來前進。

table=np.load('qtable.npy')

np.random.seed(13)
epochs=400
for epoch in range(epochs):
    env.reset()
    observation=0
    path=[]
    terminated=False
    while (not terminated):
        dice=np.random.randint(6)
        if(dice>2):
            action=np.argmax(table[observation,:])
        else:
            action=np.random.randint(4)        
        path.append(action)
        observation, reward, terminated,_,_=env.step(action)
    if(reward>0):
        print('successful path:',path)

可以看到，同樣是嘗試 400 次，透過環境回饋所建立的「Q-table」的學習機制，成功的機會可以增加了 8 倍。

4會員

21內容數

作者從國內主要的半導體公司退休，重回校園唸書；開始第三人生。分享退休投資規劃、科技產業經驗以及校園學習點滴。

留言

留言分享你的想法！

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

甘果的沙龍的其他內容

進入強化學習的環境 OpenAI Gym

本篇文章介紹如何使用Python和OpenAI Gym在Nvidia Jetson Orin Nano上實作強化學習，並以Frozen Lake遊戲為例，說明如何透過學習機器的行為與環境互動，來逐步提升學習機器的能力。

#人工智慧 #Python #OpenAI

使用巨量資料及類神經網路進行字元辨識的應用與訓練技巧

類神經網路在圖形辨識應用中需要大量資料進行訓練，並常透過分批訓練來優化模型。本文介紹如何使用「MNIST」資料庫進行手寫數字辨識，並透過「資料分批」來有效處理訓練資料。最終，分批訓練的手法能夠提升模型的辨識能力，實現持續學習。

#類神經網路 #人工智慧 #PyTorch

使用叢集類神經網路進行圖形影像分類

本篇文章探討瞭如何透過叢集類神經網路對圖形資料進行分類。叢集類神經網路針對多個相互獨立的分類目標，提升訓練收斂速度。文中說明介紹了叢集類神經網路的建立和訓練過程，最終達成準確的分類預測。透過這種方法，即使處理複雜的分類問題，也能保持較高的訓練效率和準確度。

#人工智慧 #python #類神經網路

使用反饋類神經網路進行圖形分類的基本作法

本文介紹使用 PyTorch 及類神經網路進行圖形資料集的分類。Fashion-MNIST 提供了機器學習研究上的著名範例；服飾的灰階圖像的分類。本文指導讀者從安裝 torchvision 到建立類神經網路，進行圖形分類的完整過程。也詳述了資料處理及訓練過程，幫助理解類神經網路在圖形分類上的應用。

#PyTorch #影像辨識 #類神經網路

類神經網路在多元分類問題上的實作

本文探討類神經網路在多元分類問題的應用，以scikit-learn 程式庫中的鳶尾花分類問題為例。該問題涉及三種不同的鳶尾花分類，並詳細說明瞭資料整理、類神經網路的建立及訓練過程，最終達到高準確率的預測結果。本文將幫助讀者理解如何應用類神經網路、PyTorch 及 CUDA 來進行高效的模型訓練。

#人工智慧 #PyTorch #類神經網路

反饋類神經網路在二元分類問題中的應用

本文說明反饋類神經網路在機器學習中解決非線性分類問題的方法，並以「PyTorch/CUDA」作為實現工具。介紹如何使用「scikit-learn」生成二元分類問題的數據，將訓練資料轉換為PyTorch/CUDA可用的格式，並搭建類神經網路進行訓練與測試；可用於有效解決各項機器學習的分類問題。

#類神經網路 #機器學習 #CUDA

進入強化學習的環境 OpenAI Gym

#人工智慧 #Python #OpenAI

使用巨量資料及類神經網路進行字元辨識的應用與訓練技巧

#類神經網路 #人工智慧 #PyTorch

使用叢集類神經網路進行圖形影像分類

#人工智慧 #python #類神經網路

使用反饋類神經網路進行圖形分類的基本作法

#PyTorch #影像辨識 #類神經網路

類神經網路在多元分類問題上的實作

#人工智慧 #PyTorch #類神經網路

你可能也想看

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習 #人工智慧 #數據

Darren的沙龍

2024/07/19

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT #AlphaGo #人工智慧