[探索] 門外漢的強化學習指南:A2CS 學習模型中的探索和竭盡難題

更新於 2019/08/04閱讀時間約 11 分鐘


上篇中,我們首先介紹了構成強化學習的基本元素,並且藉由 Gilman & Wang 的漫畫主角,小紅莓狐狸的冒險歷程,來輕鬆解說強化學習中 Advantage Actor-Critic (A2C) 演算法。在漫畫中,我們看到了藉由紅莓狐的內在批評者,紅莓狐得已反思過往的決定,並從歷程經驗中做有效的學習。同時,漫畫中也比較了蒙地卡羅(Monte Carlo) 方法,該方法與 A2C 不同之處,在於蒙地卡羅方法並不在歷程仍在進行中時的反思,相對於 A2C,蒙地卡羅方法會對未來可能狀態執行模擬,直到達到終止狀態後,才會回報模擬測試的結果,並以模擬結果作為策略函數的參數預估值。
蒙地卡羅方法,屬於直接估計策略函數參數方法,其缺點在於忽略狀態間的相依關係,以致於該方法的估計值有著高變異的缺點。A2C 則是採取不同的策略來解決高變異的預估問題。在 A2C 的演算法中,其評價函數包含了一個基準狀態價值,在計算某一時間點的狀態價值時,會將實際狀態價值減去基準狀態價值。這個差值,又可用作給定一狀態下,採取該行為,所得到好處的量測值。在 A2C 的演算法中,基準狀態價值通常是由批評者所決定,通常是藉由目前的策略函數所進行的取樣模擬測試來預估,也就是漫畫中戴著帽子 V(S)。
我們可以回顧,在上一篇中,忙碌的小紅莓狐狸,每三個時步就回顧實際的狀態價值和預估狀態價值的誤差。我們同時也了解,小紅莓狐狸是個辛勤的自助學習者,藉由從過往的經驗取樣來進行狀態價值預估,可以降低變異,而得到較為精準的估計。
接著,我們必須了解強化學習中所需要解決的問題。如同我們在上一篇所言,隨著探索環境的展開,小狐狸藉由與環境互動所得的回饋,得已重新更新對環境的認知。經由探索認知而建構的環境資訊,由一開始的四處均等,都不具有比丟一個公平銅板,隨機亂猜佳的情況佳的情況,隨著時間進展的探險歷程,環境資訊在具有高獎勵的區域,如食物充沛處或寶藏藏匿處,開始呈現許多峰值。
小狐狸可以憑著新獲得的環境資訊,來改變自己的行為策略:是要繼續安於目前所找到的高獎勵區域,盡情地享受利用高獎勵區域提供的短期回饋,或是被長期總獎勵爲最佳化目標的評價方程式驅動,決心不停留在目前資源尚豐的區域,為了能收藏更多的食物過冬而繼續探索。
通常,深究或竭盡一個目前最佳狀態,被稱為充分利用資訊(exploitation)。相對於充分利用資訊,則是鼓勵代理人以隨機的方式四處閒逛,尋求目前雖然不是最佳,但卻可以增加整體的遠程效益的狀態。這樣隨機探索(exploration)的方式,有助於代理人不至於短視近利,變成了一個只執行貪婪抉擇的貪婪代理人。然而,過於貪玩四處閒逛的小狐狸,雖然對所處的環境十分的熟悉,卻因為把時間都花在探索上,反而無法善加利用環境中資源較為豐富的環境,以至於整體效益仍舊低於一般著重於短期效益的貪婪抉擇。
這樣的探索或竭盡難題,呈現一個在強化學習中代理人經常需要面對的兩難問題,也因為這個兩難問題,而衍生了不少演算法和損失函數來改進學習的效能。
其中,在漫畫中所用的方法,則是在損失函數裡增加一個數學項,稱為亂度,在物理上又被稱為熵。
物理上的熵(entropy),可以用一鍋預備燒開的開水來比喻。當我們加熱一鍋在常溫下的水,鍋中的爐水獲得了額外的熱能,水分子們開始不安地騷動(可能的分子狀態增加),隨著溫度的升高,水分子們更加活躍,整體看來也更加混亂,有些分子甚至變成了水蒸氣,跳脫了原本液體的狀態,而蒸發到空氣中,成為無法利用的熱能(非封閉系統)。這樣一鍋熱水,我們說是處於高亂度的狀態,或是具有更高的熵。
然而,熵值被應用在資訊上,則是為了衡量對文件加密所需要的最佳密碼長度的問題,由1948 年在貝爾實驗室的夏儂(Claude Shannon)提出「無雜訊通道編碼定理」,獲得廣泛的應用。與其引用二戰時期,因為不可靠電報傳輸所發展的理論,在此簡單地以英文字母所涵蓋的資訊長度來做解釋。
為了能量度每個編碼的資訊值,夏儂借用了物理上「熵」的概念,並以機率的方式來重新詮釋熵這個物理概念。夏儂認為編碼的資訊容量,可以用編碼出現的機率來量測。
如果你手上有著一本英文字典,你可發現英文字典每個字母開始的字的數量,並不是均等的。也就是說,有些字母會較其他字母更常被使用。我們稱呼這些常被使用的字母,為高亂度,或是低資訊值。因為,出現的頻率太過頻繁,以至於它們在任何脈絡下,都不能提供比隨機更高的資訊(如用於不定冠詞的 "a"),因此提高了不可預測性,也增加了資訊亂度。這個以編碼出現的機率,作為量測的資訊容量,被稱為資訊亂度,在數學形式或意義上都近似物理上的「熵」。
這個資訊亂度是機率的倒數,並取上自然對數。在夏儂原先應用的領域,數位通訊中,基於電腦二元的特性,則是取二的對數,單位也叫做「位元」。取對數,是因為對數函數有一個良好的數學性質,那就是該函數是呈開口向下的,被稱為凹狀(concave) 函數。在這種形狀的函式,有一個良好性質,便是除了 0 之外,皆可微分,且在函數的連續變數區間中,具有唯一最大值的特性。而因為取機率倒數的關係,而改變了對數函數曲線開口的位置,而成爲凸狀(convex)函數,最大值變成了最小值,但唯一極值的特性不變,所有最佳化理論的研究者都皆大歡喜。
在我們小紅莓狐狸的強化學習大冒險中,亂度的使用便是用來鼓勵小紅莓探索還是竭盡目前所在的最佳狀態。如前所述,夏儂已經建立了一套理論,可以利用事件出現的機率量測資訊容量,且此理論的數學模型,具有數學家們熱愛的唯一極值特質,剛好這個極值的所在位置,便是當機率呈現均勻分布的時候。
也就是漫畫中,底下寫著「高亂度」的直方圖,附加以綠色字體標著「鼓勵」探索的字樣。這是因為,當機率呈現均勻分布,也就是其直方分佈圖呈現高散度,表示每個行為都會導致相差無多的獎勵。所以,與其計較那麼一點蠅頭小利的差別而進行竭盡,似乎不是那麼有效率的行為決定,在這樣的情況下,小紅莓狐狸的演算法自然鼓勵代理人採取更為勇敢的行為,以探索更佳的狀態。
同樣的道理,若我們的行為分佈,呈現高度差異的峰值。如漫畫中,左圖上寫著「低亂度」,或用紅色字體標示著「不鼓勵」探索的警告詞語。顯然地,在這個情況下,把所有的資源應用在竭盡呈現高度獎勵值的行為狀態,較有可能獲得豐富的收穫。
我們曾解釋,小紅莓狐狸代理人,如何以反思的方式來增進內在批評者的學習能力,然而批評者如何將已精進的狀態價值評估,驅使內在的行動者,依循所學到的新策略規則來行動呢?在漫畫裡,我們介紹了另一個家族的狐狸,稱為「策略梯度」狐狸。
一個簡單「策略梯度」狐狸,則是使用如「梯度下降」(gradient descent)等方法,直接更新策略函數的參數。梯度下降最佳化方法,會對策略價值,也就是策略函式的輸出,在目前時步作微分,並取微分方向的相反方向,來改進策略函數所預估的參數值。這個微分值,會告訴我們策略價值局部的走向,就像在爬山一樣,梯度可以看作山勢的坡度,藉由觀測山勢的坡度來決定目前該往下走,亦是往上爬。
在漫畫中的「策略梯度」狐狸,只比較局部策略價值的差異,也就是上個狀態和這個狀態的策略價值差距。但是,只觀看局部狀態價值差的「策略梯度」狐狸,
在同樣一個場景中,小紅莓狐狸會計算相對回饋或進步值,並稱之為相對獲利值,或優勢(Advantage)。這個相對獲利值,在 A2C 的方法中,由比較一個基準狀態價值得出。通常,這個基準狀態價值的計算則是以到目前為止的反思預估期望價值來代入。
所以,我們現在可以總結 A2C 強化學習的模型的總損失方程式(loss function)。那就是包括行動損失,狀態價值的損失,和亂度值。這三個數值將會在訓練類神經網路時,透過「反向傳播誤差」(back propagation)的演算法來學習。這三個數值各自量測代理人不同特質的行為輸出,每個數值的複雜度包含許多已知或未知變數間的互動,以至於使用「反向傳播誤差」來作為學習的演算法時造成收斂的困難。
如同,DeepMind 的強化學習研究主持人所指出,人工智慧包括了深度學習和強化學習。深度學習,使得原先落在專家專業知識的特徵工程,出現了自動學習的契機,而進而將機械學習推向減少人工干預的趨勢,並開啟了完全自動化的機械學習架構,包括了學習機械學習的架構本身。
而強化學習,則解決了監督學習中常見的難題,那就是學習標記的取得困難和正確性等。強化學習,如在漫畫中的小紅莓狐狸,利用自助式取樣的方式,利用反思歷程中與環境互動的經驗,代理人得已自行產生學習例子所需的標記,並且繼續進行監督學習。
這樣的學習方式,更近似於所有動物包括智人,我們,的學習方式。如同,DeepMind 近年來透過 AlphaGo 向整個世界宣示,人工智慧已經步入了新的里程。在這個新豎起的里程碑,人工智慧並不只是,需要與大量知識庫連線,並在網路斷線後,其能力可能不超過早期 windows 98 的個人電腦作業系統。在藉由與知識庫連線訓練後,能藉由自我對戰而學習圍棋規則的 AlphaZero 則展現如同實驗室白老鼠一般,透過嘗試與學習的智能,在與資料庫斷線後,仍保有出乎人意料的學習能力。
在今日興起的人工智慧熱潮,其帶來的生活便利性,而促成了人工智慧的平民化。這是演算法的創新與精進,軟體和網路架構設計的階層抽象化,硬體和計算資源快速進展的共同結晶。我們所要擁抱的不僅是各式如雨後春筍般,蓬勃發展的機械學習乃至人工智慧的雲端服務平台,或親民到以拖拉方式,便可快速建立起一個機械學習的分類器。我們更需要擁抱的是,專注在身為人類的獨特性,人工智慧無法取代的部分,被稱為原創及革命性創新的部分。
身為人工智慧即將侵入人們日常生活的未來場景,我們不能只滿足成為使用者,而把人工智慧當作不須理解的黑盒子。身為人,我們必須成為人工智慧領域的創新者和領導者,而非工具的奴隸。讓多年架構人工智慧的理論基礎,跳脫抽象及艱深的數學公式,變得與人工智慧的工具一般親民,這就是這系列文章所要嘗試並且努力的目標。

補充閱讀:

DeepMind 用 Q-Learning 而這裡談 A2CS,這兩者有什麼不一樣呢?
強化學習的演算法類別中,可以依據代理人的策略本身是否是一個可學習的參數,而分爲「主動式」學習,或「被動式」。一個「被動式」的代理人,其策略本身是不可被學習,也就是策略函式本身只是狀態對行動的固定映對,和其他強化學習中的元素,如環境(需要一個完全可觀察的環境)和時間(策略函數並不會隨著時間而對同一狀態輸出不同策略價值)等。
相對於,被動式學習,主動式學習的策略函式本身是可以學習的。也就是,一個「主動學習」的代理人,不僅要如「被動學習」代理人,在給定一策略函示下,學習處於某個狀態時,該採取何種行動會得到最大獎勵,更要學習什麼是最佳的策略函式。
一個「主動學習」的代理人,才具備有「探索」和「竭盡」的能力。而依照損失函數中是否包括「探索」的代價,又可區分學習演算法爲「有-策略」(on-policy)或「無-策略」(off-policy)。A2CS 和 SARSA(State-Action-Reward-State-Action)都屬於 「有-策略」的強化學習演算法。而 Q-Learning 則是「無-策略」的演算法,也就是在其損失函數中,並不將探索的代價,顯性地以單一項包含。
相較於直接引入探索的代價,Q-Learning 仰賴一個 Q 函式(Q function),該函式的輸出為,由目前時步所得的實際的累積獎勵開始,到最後一個時步,所得到的最大獎勵。
即將進入廣告,捲動後可繼續閱讀
為什麼會看到廣告
avatar-img
71會員
35內容數
<p>專為年輕的女孩設計的科學/資訊科技寫作計畫,希望讓每位女孩在體脂肪、青春痘與暗戀對象之外,還能找到新的生活樂趣。</p>
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Rene Wang的沙龍 的其他內容
本文介紹由 OpenAI 發表的強化學習中基準模型,並藉由國外軟體工程師所繪畫的生動動畫來做直覺式的強化學習介紹以及教學。在漫畫中,將會比較蒙地卡羅和 Advantage Actor Critic (A2C) 模擬方法的不同,並將強化學習中的基礎觀念融入漫畫中。
<p>普華永道(PwC)聯合會計事務號發表了他們對 2018 年人工智慧的趨勢預測。本文將簡略合併 PwC 提出的十項預測於四大類,對每一類介紹並了解為何 PwC 認為這十項預測的發展值得關注,以及如何應用到工業的領域中。</p>
介紹李飛飛(Fei Fei Li )教授的『我們如何教導電腦瞭解影像』的 TED 演講導讀。演講中,李飛飛教授簡述利用電腦視覺進行物體辨識的簡史,亦提及她的研究領域:包括用群眾集資完成巨量影像資料庫,完全公開使用,和使用深度學習進行影像註解。演講中,李飛飛分享個人研究歷程並勾勒人工智慧的遠景。
本文介紹由 OpenAI 發表的強化學習中基準模型,並藉由國外軟體工程師所繪畫的生動動畫來做直覺式的強化學習介紹以及教學。在漫畫中,將會比較蒙地卡羅和 Advantage Actor Critic (A2C) 模擬方法的不同,並將強化學習中的基礎觀念融入漫畫中。
<p>普華永道(PwC)聯合會計事務號發表了他們對 2018 年人工智慧的趨勢預測。本文將簡略合併 PwC 提出的十項預測於四大類,對每一類介紹並了解為何 PwC 認為這十項預測的發展值得關注,以及如何應用到工業的領域中。</p>
介紹李飛飛(Fei Fei Li )教授的『我們如何教導電腦瞭解影像』的 TED 演講導讀。演講中,李飛飛教授簡述利用電腦視覺進行物體辨識的簡史,亦提及她的研究領域:包括用群眾集資完成巨量影像資料庫,完全公開使用,和使用深度學習進行影像註解。演講中,李飛飛分享個人研究歷程並勾勒人工智慧的遠景。
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
遁入奇門:探索周易與奇門遁甲的深層關係 周易與奇門遁甲乍看之下似是全然不同的兩種學問,但當我們深入探究,就會發現它們間有著深深的聯繫。奇門遁甲是古代的一種術數學問,而周易則是中國的一種古老哲學思想。 連結網址: https://sites.google.com/view/bo
Thumbnail
    探索澳門數字旅遊消費,助力經濟復甦, 飛豬聯名澳門通卡落地「澳門銀河」世界級奢華綜合度假城   (2024年2月1日,澳門) - 為了更好刺激經濟復甦及鼓勵消費,澳門通股份有限公司聯合「澳門銀河™」、飛豬旅行,於今日上午11時假「澳門銀河」舉辦飛豬聯名澳門通卡落地「澳門銀河」世界級
Thumbnail
本篇文章探討了1月11至17日的天象情況,包括太陽進入閘門61、滿月時刻以及對於自我和未來的思考。這段期間需要靜心聆聽宇宙的啟示並準備接受靈感,但也要避免過度反應強迫靈感的發生。文章提供了對於自我思考和未來規劃的建議。
Thumbnail
#免費景點 #挖花蛤 #金湖海灘花蛤季 一、 金湖鎮海灘簡介 每到夏季,金門會發起一場全民運動-「金湖海灘花蛤季」,是當地重點觀光活動之一。而金門金湖鎮成功海灘是花蛤的主要產地,海岸線綿延十幾公里,踩在像棉花般的沙灘上,欣賞日落灑落在沙灘上,散發著絕美無比的氣息,是旅人的最愛! 二、文章目錄 (一)
Thumbnail
#免費景點 #后沙沙灘 #夏墅海岸 #親子景點 一、金門海岸地景簡介 金門地區海岸由於早年實施軍事管制,一般民眾難以親近。近年隨著戰地政務解除,豐富多變的海岸地景逐漸成為遊人喜愛造訪的「秘境」。 二、文章目錄 (一) 金門海岸地景簡介 (二) 文章目錄 (三) 金門海岸地景如何前往? (四) 金門海
Thumbnail
最近有了寫作與散步的習慣。 親身嘗試,覺得這兩個習慣值得一試!推推!
Thumbnail
本文由好好玩台灣授權提供,原文出處在此 交通&停車資訊 大眾運輸 火車: 1.搭乘區間車至龜山火車站,由火車站至農場步行約30分鍾,平日農場提供七人座接駁 (請先致電預約)。(平日為週一至週五,不含連續假期及春節期間) 客運: 自行開車 地址:宜蘭縣頭城鎮更新里更新路125號 (google導航)
Thumbnail
一位太太按時煮好晚餐,等待先生回家,但先生晚回來了,也沒有事前打電話,回來時還一臉不高興,太太看了也一肚子氣,就問:「你怎麼這麼晚回來?」先生臉色更難看了,不發一語就回房間去了,兩人都很不高興。... 這是在親密關係中很常見、很小的一件事。但是,容易累積成彼此在關係與溝通上的很大問題。
Thumbnail
先熟悉冰山探索的個人基礎練習,再開始練習關係的冰山基礎練習。若能在自己身上進行這兩種基礎練習,除了對於自我成長有極大的幫助之外,等到越來越熟悉這樣的探索過程之後,就更能因瞭解自己而瞭解他人的狀態,甚至有機會透過對話(包含一致性表達和冰山歷程的提問),在和對方的互動、交流中,協助對方或影響彼此。
Thumbnail
John Banmen曾經給了一個比喻,探索自己的冰山,就像是剛學習一項樂器,從音階開始練習,先按順序彈奏一遍、再倒過來,等到熟悉音階之後,才練習簡易的曲調。冰山的八個層次,可以視為基本的八個音階,先按順序來回走過一遍,這樣練習多次、熟悉之後,再開始練習比較複雜的、更適合你的個人習慣的探索歷程。
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
遁入奇門:探索周易與奇門遁甲的深層關係 周易與奇門遁甲乍看之下似是全然不同的兩種學問,但當我們深入探究,就會發現它們間有著深深的聯繫。奇門遁甲是古代的一種術數學問,而周易則是中國的一種古老哲學思想。 連結網址: https://sites.google.com/view/bo
Thumbnail
    探索澳門數字旅遊消費,助力經濟復甦, 飛豬聯名澳門通卡落地「澳門銀河」世界級奢華綜合度假城   (2024年2月1日,澳門) - 為了更好刺激經濟復甦及鼓勵消費,澳門通股份有限公司聯合「澳門銀河™」、飛豬旅行,於今日上午11時假「澳門銀河」舉辦飛豬聯名澳門通卡落地「澳門銀河」世界級
Thumbnail
本篇文章探討了1月11至17日的天象情況,包括太陽進入閘門61、滿月時刻以及對於自我和未來的思考。這段期間需要靜心聆聽宇宙的啟示並準備接受靈感,但也要避免過度反應強迫靈感的發生。文章提供了對於自我思考和未來規劃的建議。
Thumbnail
#免費景點 #挖花蛤 #金湖海灘花蛤季 一、 金湖鎮海灘簡介 每到夏季,金門會發起一場全民運動-「金湖海灘花蛤季」,是當地重點觀光活動之一。而金門金湖鎮成功海灘是花蛤的主要產地,海岸線綿延十幾公里,踩在像棉花般的沙灘上,欣賞日落灑落在沙灘上,散發著絕美無比的氣息,是旅人的最愛! 二、文章目錄 (一)
Thumbnail
#免費景點 #后沙沙灘 #夏墅海岸 #親子景點 一、金門海岸地景簡介 金門地區海岸由於早年實施軍事管制,一般民眾難以親近。近年隨著戰地政務解除,豐富多變的海岸地景逐漸成為遊人喜愛造訪的「秘境」。 二、文章目錄 (一) 金門海岸地景簡介 (二) 文章目錄 (三) 金門海岸地景如何前往? (四) 金門海
Thumbnail
最近有了寫作與散步的習慣。 親身嘗試,覺得這兩個習慣值得一試!推推!
Thumbnail
本文由好好玩台灣授權提供,原文出處在此 交通&停車資訊 大眾運輸 火車: 1.搭乘區間車至龜山火車站,由火車站至農場步行約30分鍾,平日農場提供七人座接駁 (請先致電預約)。(平日為週一至週五,不含連續假期及春節期間) 客運: 自行開車 地址:宜蘭縣頭城鎮更新里更新路125號 (google導航)
Thumbnail
一位太太按時煮好晚餐,等待先生回家,但先生晚回來了,也沒有事前打電話,回來時還一臉不高興,太太看了也一肚子氣,就問:「你怎麼這麼晚回來?」先生臉色更難看了,不發一語就回房間去了,兩人都很不高興。... 這是在親密關係中很常見、很小的一件事。但是,容易累積成彼此在關係與溝通上的很大問題。
Thumbnail
先熟悉冰山探索的個人基礎練習,再開始練習關係的冰山基礎練習。若能在自己身上進行這兩種基礎練習,除了對於自我成長有極大的幫助之外,等到越來越熟悉這樣的探索過程之後,就更能因瞭解自己而瞭解他人的狀態,甚至有機會透過對話(包含一致性表達和冰山歷程的提問),在和對方的互動、交流中,協助對方或影響彼此。
Thumbnail
John Banmen曾經給了一個比喻,探索自己的冰山,就像是剛學習一項樂器,從音階開始練習,先按順序彈奏一遍、再倒過來,等到熟悉音階之後,才練習簡易的曲調。冰山的八個層次,可以視為基本的八個音階,先按順序來回走過一遍,這樣練習多次、熟悉之後,再開始練習比較複雜的、更適合你的個人習慣的探索歷程。