進入強化學習的環境 OpenAI Gym

甘果-avatar-img
發佈於程式
更新 發佈閱讀 6 分鐘

反饋式類神經網路通當使用在具備有明確目標的學習運算上面,或是稱之為「監督式學習」;但是,如何可以讓學習的機制可以不斷的進步,或者是否可以達到自我學習的地步呢?「強化式學習」(Reinforcement Learning) 就是一種可能的方法。

強化式學習是透過學習機器 (agent) 與環境 (environment) 的互動,利用觀察 (observation) 學習機器行為 (action) 與環境互動結果的積分 (reward) 大小來逐步加強學習機器的能力。

raw-image


當然,我們也可以使用 python 在 nVidia Jetson Orin Nano 的機器來完成「強化學習」的實作。在OpenAI Gym 這裏提供了 python 使用者多個強化學習的環境,讓大家有一個共同的環境可以測試自己的強化學習演算法以及學習機器的能力,而不用花時間去搭建自己的測試環境;在這裏我們先實作利用強化學習進行一個叫做「Frozen Lake」的題目。

首先,先安裝 OpneAI Gym 的 python 程式庫

pip install gymnasium

然後安裝文字遊戲 (toy-text) 套件

pip install gymnasium[toy-text]

這個題目的目標是從起始狀態 (S) 移動到目標狀態 (G),只能在冰凍的地磚 (F) 上行走,並避開洞穴 (H);可以由以下的圖形示意。

raw-image

一開始,從左上角的家出發,目標是右下角可以獲得禮物的地方,在中晚會有設定幾個障礙,也就是上圖中結冰的洞;每次移動一格 (Action),系統會回傳目前的位置 (Observation),如果掉進障礙就結束 (Terminated),如果到達目標,分數 (Reward) 就會加一分給奬勵並且結束 (Terminated);強化學習的使用就是透過這樣的學習機置達到學習完成目標的路徑。

首先,OpenAI Gym 已經定義了利用 action 的數字代表移動的方向:

raw-image

同時也把目前的狀況用文字定義出來:

raw-image

所以,我們可以先把一開始的狀態用程式描述出來。

import gymnasium as gym
env=gym.make('FrozenLake-v1', is_slippery=False,render_mode='ansi')
env.reset()
print(env.render())
raw-image

紅色的部份就是目前的位置;當然,我們可以用人工的方式很容易看出來,如果我們移動的順序是「右/右/下/下/下/右」那麼就可以完成這個題目,在程式上就是:

path=[2,2,1,1,1,2]
env.reset()
for i in range(len(path)):
action=path[i]
observation, reward, terminated,_,_=env.step(action)
print(env.render())
print('location:',observation)
print('reward:',reward)
print('If terminated?',terminated)
raw-image


在每一步移動 (Action) ,OpenAI Gym 這個「Frozen Lake」的環境都會回傳目前的位置 (Observation)、奬勵分數分數 (Reward) 以及是否結束 (Terminated),來提供接下來學習機制程式的撰寫。

最簡單的方式,我們可以採用亂數來找到可以通過的方式,例如

import numpy as np
epochs=100
for epoch in range(epochs):
state=env.reset()
path=[]
terminated=False
while (not terminated):
action=env.action_space.sample()
path.append(action)
observation, reward, terminated,_,_=env.step(action)
if(reward>0):
print('successful path:',path)
print(env.render())
raw-image

在這段程式中,我們可以使用亂數嘗試了 100 次的路徑來取得成功的路徑;其中「env.action_space.sample()」這個函數就是「OpenAI Gym」所提供的亂數選取動作的函數。當然,這樣的一個作法並不能稱之為「學習」;所以,在接下來的文章中會陸續將「強化學習」的方法作進一步的描述。

留言
avatar-img
甘果的沙龍
9會員
34內容數
作者從國內主要的半導體公司退休,重回校園教學研究;開始第三人生。分享退休投資規劃、科技產業經驗以及校園學習點滴。
甘果的沙龍的其他內容
2025/04/26
本文章說明如何在已安裝 Python 3.9 的 iMac mini 上設定 Python 虛擬環境,以及如何使用 venv 工具、安裝常用函式庫(如 numpy、pyTorch 等),並設定 Jupyter 連動不同 Python 虛擬環境。
Thumbnail
2025/04/26
本文章說明如何在已安裝 Python 3.9 的 iMac mini 上設定 Python 虛擬環境,以及如何使用 venv 工具、安裝常用函式庫(如 numpy、pyTorch 等),並設定 Jupyter 連動不同 Python 虛擬環境。
Thumbnail
2025/04/19
這篇文章說明如何在iMac mini M4上設定Jupyter Notebook作為遠端程式設計伺服器,方便使用iPad進行程式開發。文章涵蓋Jupyter Notebook的安裝、設定遠端連線以及建立可執行的shell script,讓伺服器能持續運作。
Thumbnail
2025/04/19
這篇文章說明如何在iMac mini M4上設定Jupyter Notebook作為遠端程式設計伺服器,方便使用iPad進行程式開發。文章涵蓋Jupyter Notebook的安裝、設定遠端連線以及建立可執行的shell script,讓伺服器能持續運作。
Thumbnail
2025/04/10
本文介紹如何將蘋果iMac mini作為CP值最高的人工智慧程式設計伺服器,搭配 iPad 進行遠端程式設計工作。文章說明瞭啟動遠端服務、連接SSH伺服器、使用外接硬碟及連接FTP伺服器等步驟,並推薦了相關應用 app。
Thumbnail
2025/04/10
本文介紹如何將蘋果iMac mini作為CP值最高的人工智慧程式設計伺服器,搭配 iPad 進行遠端程式設計工作。文章說明瞭啟動遠端服務、連接SSH伺服器、使用外接硬碟及連接FTP伺服器等步驟,並推薦了相關應用 app。
Thumbnail
看更多
你可能也想看
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
BRAIN GYM®104 丹尼遜健腦操®26式課程於2021年3月27至28日在台北舉行,由教育肌動學基金會 許可丹尼遜健腦操®導師 謝宜彣 小姐、張家榕 小姐擔任講師,主辦單位是才賦顧問有限公司。第二天的課程從學員的分享開始,許多人表示在參加前一天的課程後,他們的睡眠品質有了顯著的提升。這是因為當肌應檢測解除了,緊張感減輕,自然而然地改善了睡眠品質。
Thumbnail
BRAIN GYM®104 丹尼遜健腦操®26式課程於2021年3月27至28日在台北舉行,由教育肌動學基金會 許可丹尼遜健腦操®導師 謝宜彣 小姐、張家榕 小姐擔任講師,主辦單位是才賦顧問有限公司。第二天的課程從學員的分享開始,許多人表示在參加前一天的課程後,他們的睡眠品質有了顯著的提升。這是因為當肌應檢測解除了,緊張感減輕,自然而然地改善了睡眠品質。
Thumbnail
BRAIN GYM®104 丹尼遜健腦操®26式課程於2021年3月27至28日在台北舉行,由教育肌動學基金會 許可丹尼遜健腦操®導師 謝宜彣 小姐、張家榕 小姐擔任講師,主辦是才賦顧問有限公司。這次課程的內容是教授丹尼遜健腦操®26式動作,吸引一眾專業人士參加,包括呼吸治療師、營養師和專業芳療師。
Thumbnail
BRAIN GYM®104 丹尼遜健腦操®26式課程於2021年3月27至28日在台北舉行,由教育肌動學基金會 許可丹尼遜健腦操®導師 謝宜彣 小姐、張家榕 小姐擔任講師,主辦是才賦顧問有限公司。這次課程的內容是教授丹尼遜健腦操®26式動作,吸引一眾專業人士參加,包括呼吸治療師、營養師和專業芳療師。
Thumbnail
BRAIN GYM®104 教育肌應學 丹尼遜健腦操®26式課程在台北成功舉辦,這是一個匯聚了來自不同領域專業人士的學員,旨在深入探索丹尼遜健腦操® 26式的應用與技巧。這兩天的課程不僅讓學員們更加熟悉了丹尼遜健腦操®的原理和方法,更加深刻地理解了如何應用這些技巧促進全腦學習的效果。
Thumbnail
BRAIN GYM®104 教育肌應學 丹尼遜健腦操®26式課程在台北成功舉辦,這是一個匯聚了來自不同領域專業人士的學員,旨在深入探索丹尼遜健腦操® 26式的應用與技巧。這兩天的課程不僅讓學員們更加熟悉了丹尼遜健腦操®的原理和方法,更加深刻地理解了如何應用這些技巧促進全腦學習的效果。
Thumbnail
2018年12月6日至9日,BRAIN GYM®101 教育肌應學 基礎丹尼遜健腦操®國際證書課程在才賦顧問有限公司舉辦。這些學員來自不同的專業領域,包括企業家、教師、工程師、藝術家、營養師等,各自擁有不同的學習目標和期待。
Thumbnail
2018年12月6日至9日,BRAIN GYM®101 教育肌應學 基礎丹尼遜健腦操®國際證書課程在才賦顧問有限公司舉辦。這些學員來自不同的專業領域,包括企業家、教師、工程師、藝術家、營養師等,各自擁有不同的學習目標和期待。
Thumbnail
2019年8月15日臺北舉辦的BRAIN GYM®101教育肌應學 基礎丹尼遜健腦操®國際證書課程,由教育肌應學基金會授權的許可丹尼遜健腦操®導師王紫晴老師主講,讓學員透過運動和遊戲中探索教育肌應學應用於日常生活中,享受學習的樂趣,並新建立輕鬆和有趣的學習模式。
Thumbnail
2019年8月15日臺北舉辦的BRAIN GYM®101教育肌應學 基礎丹尼遜健腦操®國際證書課程,由教育肌應學基金會授權的許可丹尼遜健腦操®導師王紫晴老師主講,讓學員透過運動和遊戲中探索教育肌應學應用於日常生活中,享受學習的樂趣,並新建立輕鬆和有趣的學習模式。
Thumbnail
2018年5月3日至6日,BRAIN GYM®101 基礎丹尼遜健腦操®國際證書課程在才賦顧問有限公司如期舉行,這是一場針對日常生活中學習的最佳學習工具的深度探討。本課程由著名講師蘇志華先生主持。
Thumbnail
2018年5月3日至6日,BRAIN GYM®101 基礎丹尼遜健腦操®國際證書課程在才賦顧問有限公司如期舉行,這是一場針對日常生活中學習的最佳學習工具的深度探討。本課程由著名講師蘇志華先生主持。
Thumbnail
2019年2月26日至3月1日在臺北舉辦,30位學員參與由蘇志華老師主持的BrainGym®丹尼遜健腦操®國際證書課程。探討了丹尼遜健腦操®的核心理念和技巧,以及運動如何與學習產生聯繫,具體體驗了放鬆、愉悅和學習的美好。該課程將這些經歷帶回到學員的工作崗位和生活中,成為推動學習和成長的重要力量。
Thumbnail
2019年2月26日至3月1日在臺北舉辦,30位學員參與由蘇志華老師主持的BrainGym®丹尼遜健腦操®國際證書課程。探討了丹尼遜健腦操®的核心理念和技巧,以及運動如何與學習產生聯繫,具體體驗了放鬆、愉悅和學習的美好。該課程將這些經歷帶回到學員的工作崗位和生活中,成為推動學習和成長的重要力量。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News