強韌學習Q-learning 優化作法

發佈於程式

2025/01/30 更新2025/01/30 發佈閱讀 8 分鐘

在上一篇的強韌學習中，可以看到行為 (action) 的主要還是依據 Q-Table 的最大數值來決定；而 Q-Table 中的數值是依照過去的行為經驗累積而來；在經驗累積的過程中，每次單純累計回饋 (reward) 的數值；所以，可以觀察到最後形成的 Q-Table 各個數值內容會逐漸地累計而出現離散而極端的差異；這樣的現象，會使得愈後面訓練的回饋數值相較於 Q-Table 的數值，影響力愈來愈小；因此，在建立 Q-Table 時，要儘量將不同時間加入的回饋值對 Q-Table 有一定的影響。

優化強韌學習參數

作法上可以除了回饋 (reword) 值以外，再將 Q-Table 中的最大值，作為加權相加；接下來，在建立 Q-Table 時，將以上的加權相加值打折後加入 Q-Table，作為數值平滑過濾，來減少 Q-Table 極端值產生，例如：

maxValue=1.0+0.8*np.max(qtable[observation,:])
qtable[observation,action]+=0.2*(maxValue-qtable[observation,action])

所以完整的訓練程式可以寫成：

import numpy as np
qtable=np.zeros((16,4))
#--------------
np.random.seed(13)
epochs=2000
for epoch in range(epochs):
    state=env.reset()
    path=[]
    terminated=False
    while (not terminated):
        action=np.random.randint(4)        
        path.append(action)
        observation, reward, terminated,_,_=env.step(action)
    if(reward>0):
        env.reset()
        for j in range(len(path)):
            action=path[j]
            observation,_,_,_,_=env.step(action)
            #----------------------
            maxValue=1.0+0.8*np.max(qtable[observation,:])
            qtable[observation,action]+=0.2*(maxValue-qtable[observation,action])
            #----------------------
#         print('successful path:',path)
print('table:',qtable)
#-------
np.save('qtable',qtable)

再用測試程式執行

qtable=np.load('qtable.npy')

np.random.seed(13)
epochs=400
for epoch in range(epochs):
    env.reset()
    observation=0
    path=[]
    terminated=False
    while (not terminated):
        dice=np.random.randint(6)
        if(dice>2):
            action=np.argmax(qtable[observation,:])
        else:
            action=np.random.randint(4)        
        path.append(action)
        observation, reward, terminated,_,_=env.step(action)
    if(reward>0):
        print('successful path:',path)

我們可以發現，增加了訓練的學習能力之後，成功完成的次數又再增加；由原來 400 次的嘗試成功 8 次，增加到 12 次；約 50%的成功。

自我學習

另一方面，如果可同時進行訓練及測試程式，每次的測試結果都可以不斷地進行學習，可以更進一步增加強韌學習的效率；因此可以將程式再更新如下：

import numpy as np
qtable=np.zeros((16,4))
#--------------
np.random.seed(13)
epochs=400
for epoch in range(epochs):
    env.reset()
    observation=0
    path=[]
    terminated=False
    inDB=False
    while (not terminated):
        dice=np.random.randint(6)
        if not inDB:
            dice=0
        if(dice>2):
            action=np.argmax(qtable[observation,:])
        else:
            action=np.random.randint(4)        
        path.append(action)
        observation, reward, terminated,_,_=env.step(action)

    if(reward>0):
        inDB=True
        env.reset()
        for j in range(len(path)):
            action=path[j]
            observation,_,_,_,_=env.step(action)
            #----------------------
            maxValue=1.0+0.8*np.max(qtable[observation,:])
            qtable[observation,action]+=0.2*(maxValue-qtable[observation,action])
            #----------------------
        print('successful path:',path)

print('table:',qtable)

透過同步學習及測試的作法，既使只有 400 次的嘗試，也會由原來的僅有一次成功的結果，增加到 8 次成功結果；更重要的是，可以從原來累計學習成功的結果，加入成為學習的輸入，也就是「自我學習」的效果。

留言

留言分享你的想法！

甘果的沙龍

5會員

33內容數

作者從國內主要的半導體公司退休，重回校園唸書；開始第三人生。分享退休投資規劃、科技產業經驗以及校園學習點滴。

甘果的沙龍的其他內容

2025/04/26

在 iMac mini 上設定 Python 虛擬環境並與 Jupyter Notebook 聯動

本文章說明如何在已安裝 Python 3.9 的 iMac mini 上設定 Python 虛擬環境，以及如何使用 venv 工具、安裝常用函式庫（如 numpy、pyTorch 等），並設定 Jupyter 連動不同 Python 虛擬環境。

2025/04/26

在 iMac mini 上設定 Python 虛擬環境並與 Jupyter Notebook 聯動

2025/04/19

將iMac mini M4 設定為遠端Jupyter Notebook伺服器，使用iPad進行程式設計

這篇文章說明如何在iMac mini M4上設定Jupyter Notebook作為遠端程式設計伺服器，方便使用iPad進行程式開發。文章涵蓋Jupyter Notebook的安裝、設定遠端連線以及建立可執行的shell script，讓伺服器能持續運作。

2025/04/19

將iMac mini M4 設定為遠端Jupyter Notebook伺服器，使用iPad進行程式設計

2025/04/10

iMac mini M4：低成本高效能的 AI 程式伺服器

本文介紹如何將蘋果iMac mini作為CP值最高的人工智慧程式設計伺服器，搭配 iPad 進行遠端程式設計工作。文章說明瞭啟動遠端服務、連接SSH伺服器、使用外接硬碟及連接FTP伺服器等步驟，並推薦了相關應用 app。

2025/04/10

iMac mini M4：低成本高效能的 AI 程式伺服器

看更多

你可能也想看

哈斯的煉金工房

蝦皮購物11/11攻略：掌握領券、搶購、分潤三大關鍵，輕鬆放大你的荷包！

身為採購專家，當然不能錯過11/11購物節的超殺折扣！本文將帶你深入瞭解蝦皮11/11購物節的完整攻略，從必領的各種優惠券、商城折扣，到限時的搶購技巧，讓你買到手軟荷包也不哭泣。更重要的是，揭密蝦皮分潤計畫，教你如何零成本創業，透過分享商品連結，每月輕鬆加薪，開啟數位遊牧人生！

#蝦皮購物#蝦皮#購物節

2025/11/06

哈斯的煉金工房

蝦皮購物11/11攻略：掌握領券、搶購、分潤三大關鍵，輕鬆放大你的荷包！

#蝦皮購物#蝦皮#購物節

2025/11/06

寄放靈魂的閣樓

喜迎雙11購物節！加入蝦皮分潤計畫，輕鬆跨海購買心儀商品

雙11購物節將近，這次分享一些蝦皮海外賣場購物的步驟與注意事項，並且介紹雙11蝦皮購物的相關優惠；另外蝦皮分潤計畫持續招募新血中，只要分享購物連結即可獲得分潤，是很適合創作者的額外收入管道喔！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

寄放靈魂的閣樓

喜迎雙11購物節！加入蝦皮分潤計畫，輕鬆跨海購買心儀商品

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

newman的沙龍

技術筆記-RL01-開始來爬「強化學習」這座山

Reinforcement Learning (強化學習) 的理論非常有趣，可能是因為其中許多方法，與人類的學習歷程極為相似，如試錯，獎懲，改進策略，持續優化等等。現在準備來爬這座山了，我把學習階段大致分成三個小山峰，依序為 Q-Learning --> DQN --> Actor-Critic，

#QLearning#DQN#學習

2025/04/01

newman的沙龍

技術筆記-RL01-開始來爬「強化學習」這座山

#QLearning#DQN#學習

2025/04/01

阿崴的沙龍

阿崴閱讀-峰值體驗2

“以底層邏輯為節點，種進大腦；以思考框架為算法模型，在架上快速迭代。” 好書分享：峰值體驗2 作者：汪志謙、朱海蓓天下雜誌出版一個知識框架可以持續進化，然後繼續升級，大概就是我在相對短時間內看完峰值體驗1與2的最大驚訝，其中當然包含著很多的資訊含量，但此同時作者也持續的累

2025/03/05

2025/03/05

純強化式學習的概念與應用純強化式學習（Pure Reinforcement Learning, RL）

純強化式學習的概念與應用純強化式學習（Pure Reinforcement Learning, RL）是一種機器學習方法，智能體（agent）通過與環境的互動來學習行為策略，目標是最大化累積獎勵。這種學習方式不依賴於標記數據，而是通過試錯過程來獲得經驗，從而改進其決策能力。基本原理在

#學習#DeepSeek#自動駕駛

2025/02/16

AI.ESG.數位轉型顧問沈重宗

純強化式學習的概念與應用純強化式學習（Pure Reinforcement Learning, RL）

#學習#DeepSeek#自動駕駛

2025/02/16

甘果的沙龍

強韌學習Q-learning 優化作法

在上一篇的強韌學習中，可以看到行為 (action) 的主要還是依據 Q-Table 的最大數值來決定；而 Q-Table 中的數值是依照過去的行為經驗累積而來；在經驗累積的過程中，每次單純累計回饋 (reward) 的數值；所以，可以觀察到最後形成的 Q-Table 各個數值內容會逐漸地累計而出現

#學習#python#人工智慧

2025/01/30