[探索] 門外漢的強化學習指南:A2CS 學習模型中的探索和竭盡難題

更新於 發佈於 閱讀時間約 11 分鐘


上篇中,我們首先介紹了構成強化學習的基本元素,並且藉由 Gilman & Wang 的漫畫主角,小紅莓狐狸的冒險歷程,來輕鬆解說強化學習中 Advantage Actor-Critic (A2C) 演算法。在漫畫中,我們看到了藉由紅莓狐的內在批評者,紅莓狐得已反思過往的決定,並從歷程經驗中做有效的學習。同時,漫畫中也比較了蒙地卡羅(Monte Carlo) 方法,該方法與 A2C 不同之處,在於蒙地卡羅方法並不在歷程仍在進行中時的反思,相對於 A2C,蒙地卡羅方法會對未來可能狀態執行模擬,直到達到終止狀態後,才會回報模擬測試的結果,並以模擬結果作為策略函數的參數預估值。
蒙地卡羅方法,屬於直接估計策略函數參數方法,其缺點在於忽略狀態間的相依關係,以致於該方法的估計值有著高變異的缺點。A2C 則是採取不同的策略來解決高變異的預估問題。在 A2C 的演算法中,其評價函數包含了一個基準狀態價值,在計算某一時間點的狀態價值時,會將實際狀態價值減去基準狀態價值。這個差值,又可用作給定一狀態下,採取該行為,所得到好處的量測值。在 A2C 的演算法中,基準狀態價值通常是由批評者所決定,通常是藉由目前的策略函數所進行的取樣模擬測試來預估,也就是漫畫中戴著帽子 V(S)。
我們可以回顧,在上一篇中,忙碌的小紅莓狐狸,每三個時步就回顧實際的狀態價值和預估狀態價值的誤差。我們同時也了解,小紅莓狐狸是個辛勤的自助學習者,藉由從過往的經驗取樣來進行狀態價值預估,可以降低變異,而得到較為精準的估計。
接著,我們必須了解強化學習中所需要解決的問題。如同我們在上一篇所言,隨著探索環境的展開,小狐狸藉由與環境互動所得的回饋,得已重新更新對環境的認知。經由探索認知而建構的環境資訊,由一開始的四處均等,都不具有比丟一個公平銅板,隨機亂猜佳的情況佳的情況,隨著時間進展的探險歷程,環境資訊在具有高獎勵的區域,如食物充沛處或寶藏藏匿處,開始呈現許多峰值。
小狐狸可以憑著新獲得的環境資訊,來改變自己的行為策略:是要繼續安於目前所找到的高獎勵區域,盡情地享受利用高獎勵區域提供的短期回饋,或是被長期總獎勵爲最佳化目標的評價方程式驅動,決心不停留在目前資源尚豐的區域,為了能收藏更多的食物過冬而繼續探索。
通常,深究或竭盡一個目前最佳狀態,被稱為充分利用資訊(exploitation)。相對於充分利用資訊,則是鼓勵代理人以隨機的方式四處閒逛,尋求目前雖然不是最佳,但卻可以增加整體的遠程效益的狀態。這樣隨機探索(exploration)的方式,有助於代理人不至於短視近利,變成了一個只執行貪婪抉擇的貪婪代理人。然而,過於貪玩四處閒逛的小狐狸,雖然對所處的環境十分的熟悉,卻因為把時間都花在探索上,反而無法善加利用環境中資源較為豐富的環境,以至於整體效益仍舊低於一般著重於短期效益的貪婪抉擇。
這樣的探索或竭盡難題,呈現一個在強化學習中代理人經常需要面對的兩難問題,也因為這個兩難問題,而衍生了不少演算法和損失函數來改進學習的效能。
其中,在漫畫中所用的方法,則是在損失函數裡增加一個數學項,稱為亂度,在物理上又被稱為熵。
物理上的熵(entropy),可以用一鍋預備燒開的開水來比喻。當我們加熱一鍋在常溫下的水,鍋中的爐水獲得了額外的熱能,水分子們開始不安地騷動(可能的分子狀態增加),隨著溫度的升高,水分子們更加活躍,整體看來也更加混亂,有些分子甚至變成了水蒸氣,跳脫了原本液體的狀態,而蒸發到空氣中,成為無法利用的熱能(非封閉系統)。這樣一鍋熱水,我們說是處於高亂度的狀態,或是具有更高的熵。
然而,熵值被應用在資訊上,則是為了衡量對文件加密所需要的最佳密碼長度的問題,由1948 年在貝爾實驗室的夏儂(Claude Shannon)提出「無雜訊通道編碼定理」,獲得廣泛的應用。與其引用二戰時期,因為不可靠電報傳輸所發展的理論,在此簡單地以英文字母所涵蓋的資訊長度來做解釋。
為了能量度每個編碼的資訊值,夏儂借用了物理上「熵」的概念,並以機率的方式來重新詮釋熵這個物理概念。夏儂認為編碼的資訊容量,可以用編碼出現的機率來量測。
如果你手上有著一本英文字典,你可發現英文字典每個字母開始的字的數量,並不是均等的。也就是說,有些字母會較其他字母更常被使用。我們稱呼這些常被使用的字母,為高亂度,或是低資訊值。因為,出現的頻率太過頻繁,以至於它們在任何脈絡下,都不能提供比隨機更高的資訊(如用於不定冠詞的 "a"),因此提高了不可預測性,也增加了資訊亂度。這個以編碼出現的機率,作為量測的資訊容量,被稱為資訊亂度,在數學形式或意義上都近似物理上的「熵」。
這個資訊亂度是機率的倒數,並取上自然對數。在夏儂原先應用的領域,數位通訊中,基於電腦二元的特性,則是取二的對數,單位也叫做「位元」。取對數,是因為對數函數有一個良好的數學性質,那就是該函數是呈開口向下的,被稱為凹狀(concave) 函數。在這種形狀的函式,有一個良好性質,便是除了 0 之外,皆可微分,且在函數的連續變數區間中,具有唯一最大值的特性。而因為取機率倒數的關係,而改變了對數函數曲線開口的位置,而成爲凸狀(convex)函數,最大值變成了最小值,但唯一極值的特性不變,所有最佳化理論的研究者都皆大歡喜。
在我們小紅莓狐狸的強化學習大冒險中,亂度的使用便是用來鼓勵小紅莓探索還是竭盡目前所在的最佳狀態。如前所述,夏儂已經建立了一套理論,可以利用事件出現的機率量測資訊容量,且此理論的數學模型,具有數學家們熱愛的唯一極值特質,剛好這個極值的所在位置,便是當機率呈現均勻分布的時候。
也就是漫畫中,底下寫著「高亂度」的直方圖,附加以綠色字體標著「鼓勵」探索的字樣。這是因為,當機率呈現均勻分布,也就是其直方分佈圖呈現高散度,表示每個行為都會導致相差無多的獎勵。所以,與其計較那麼一點蠅頭小利的差別而進行竭盡,似乎不是那麼有效率的行為決定,在這樣的情況下,小紅莓狐狸的演算法自然鼓勵代理人採取更為勇敢的行為,以探索更佳的狀態。
同樣的道理,若我們的行為分佈,呈現高度差異的峰值。如漫畫中,左圖上寫著「低亂度」,或用紅色字體標示著「不鼓勵」探索的警告詞語。顯然地,在這個情況下,把所有的資源應用在竭盡呈現高度獎勵值的行為狀態,較有可能獲得豐富的收穫。
我們曾解釋,小紅莓狐狸代理人,如何以反思的方式來增進內在批評者的學習能力,然而批評者如何將已精進的狀態價值評估,驅使內在的行動者,依循所學到的新策略規則來行動呢?在漫畫裡,我們介紹了另一個家族的狐狸,稱為「策略梯度」狐狸。
一個簡單「策略梯度」狐狸,則是使用如「梯度下降」(gradient descent)等方法,直接更新策略函數的參數。梯度下降最佳化方法,會對策略價值,也就是策略函式的輸出,在目前時步作微分,並取微分方向的相反方向,來改進策略函數所預估的參數值。這個微分值,會告訴我們策略價值局部的走向,就像在爬山一樣,梯度可以看作山勢的坡度,藉由觀測山勢的坡度來決定目前該往下走,亦是往上爬。
在漫畫中的「策略梯度」狐狸,只比較局部策略價值的差異,也就是上個狀態和這個狀態的策略價值差距。但是,只觀看局部狀態價值差的「策略梯度」狐狸,
在同樣一個場景中,小紅莓狐狸會計算相對回饋或進步值,並稱之為相對獲利值,或優勢(Advantage)。這個相對獲利值,在 A2C 的方法中,由比較一個基準狀態價值得出。通常,這個基準狀態價值的計算則是以到目前為止的反思預估期望價值來代入。
所以,我們現在可以總結 A2C 強化學習的模型的總損失方程式(loss function)。那就是包括行動損失,狀態價值的損失,和亂度值。這三個數值將會在訓練類神經網路時,透過「反向傳播誤差」(back propagation)的演算法來學習。這三個數值各自量測代理人不同特質的行為輸出,每個數值的複雜度包含許多已知或未知變數間的互動,以至於使用「反向傳播誤差」來作為學習的演算法時造成收斂的困難。
如同,DeepMind 的強化學習研究主持人所指出,人工智慧包括了深度學習和強化學習。深度學習,使得原先落在專家專業知識的特徵工程,出現了自動學習的契機,而進而將機械學習推向減少人工干預的趨勢,並開啟了完全自動化的機械學習架構,包括了學習機械學習的架構本身。
而強化學習,則解決了監督學習中常見的難題,那就是學習標記的取得困難和正確性等。強化學習,如在漫畫中的小紅莓狐狸,利用自助式取樣的方式,利用反思歷程中與環境互動的經驗,代理人得已自行產生學習例子所需的標記,並且繼續進行監督學習。
這樣的學習方式,更近似於所有動物包括智人,我們,的學習方式。如同,DeepMind 近年來透過 AlphaGo 向整個世界宣示,人工智慧已經步入了新的里程。在這個新豎起的里程碑,人工智慧並不只是,需要與大量知識庫連線,並在網路斷線後,其能力可能不超過早期 windows 98 的個人電腦作業系統。在藉由與知識庫連線訓練後,能藉由自我對戰而學習圍棋規則的 AlphaZero 則展現如同實驗室白老鼠一般,透過嘗試與學習的智能,在與資料庫斷線後,仍保有出乎人意料的學習能力。
在今日興起的人工智慧熱潮,其帶來的生活便利性,而促成了人工智慧的平民化。這是演算法的創新與精進,軟體和網路架構設計的階層抽象化,硬體和計算資源快速進展的共同結晶。我們所要擁抱的不僅是各式如雨後春筍般,蓬勃發展的機械學習乃至人工智慧的雲端服務平台,或親民到以拖拉方式,便可快速建立起一個機械學習的分類器。我們更需要擁抱的是,專注在身為人類的獨特性,人工智慧無法取代的部分,被稱為原創及革命性創新的部分。
身為人工智慧即將侵入人們日常生活的未來場景,我們不能只滿足成為使用者,而把人工智慧當作不須理解的黑盒子。身為人,我們必須成為人工智慧領域的創新者和領導者,而非工具的奴隸。讓多年架構人工智慧的理論基礎,跳脫抽象及艱深的數學公式,變得與人工智慧的工具一般親民,這就是這系列文章所要嘗試並且努力的目標。

補充閱讀:

DeepMind 用 Q-Learning 而這裡談 A2CS,這兩者有什麼不一樣呢?
強化學習的演算法類別中,可以依據代理人的策略本身是否是一個可學習的參數,而分爲「主動式」學習,或「被動式」。一個「被動式」的代理人,其策略本身是不可被學習,也就是策略函式本身只是狀態對行動的固定映對,和其他強化學習中的元素,如環境(需要一個完全可觀察的環境)和時間(策略函數並不會隨著時間而對同一狀態輸出不同策略價值)等。
相對於,被動式學習,主動式學習的策略函式本身是可以學習的。也就是,一個「主動學習」的代理人,不僅要如「被動學習」代理人,在給定一策略函示下,學習處於某個狀態時,該採取何種行動會得到最大獎勵,更要學習什麼是最佳的策略函式。
一個「主動學習」的代理人,才具備有「探索」和「竭盡」的能力。而依照損失函數中是否包括「探索」的代價,又可區分學習演算法爲「有-策略」(on-policy)或「無-策略」(off-policy)。A2CS 和 SARSA(State-Action-Reward-State-Action)都屬於 「有-策略」的強化學習演算法。而 Q-Learning 則是「無-策略」的演算法,也就是在其損失函數中,並不將探索的代價,顯性地以單一項包含。
相較於直接引入探索的代價,Q-Learning 仰賴一個 Q 函式(Q function),該函式的輸出為,由目前時步所得的實際的累積獎勵開始,到最後一個時步,所得到的最大獎勵。
為什麼會看到廣告
avatar-img
71會員
35內容數
<p>專為年輕的女孩設計的科學/資訊科技寫作計畫,希望讓每位女孩在體脂肪、青春痘與暗戀對象之外,還能找到新的生活樂趣。</p>
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Rene Wang的沙龍 的其他內容
本文介紹由 OpenAI 發表的強化學習中基準模型,並藉由國外軟體工程師所繪畫的生動動畫來做直覺式的強化學習介紹以及教學。在漫畫中,將會比較蒙地卡羅和 Advantage Actor Critic (A2C) 模擬方法的不同,並將強化學習中的基礎觀念融入漫畫中。
<p>普華永道(PwC)聯合會計事務號發表了他們對 2018 年人工智慧的趨勢預測。本文將簡略合併 PwC 提出的十項預測於四大類,對每一類介紹並了解為何 PwC 認為這十項預測的發展值得關注,以及如何應用到工業的領域中。</p>
介紹李飛飛(Fei Fei Li )教授的『我們如何教導電腦瞭解影像』的 TED 演講導讀。演講中,李飛飛教授簡述利用電腦視覺進行物體辨識的簡史,亦提及她的研究領域:包括用群眾集資完成巨量影像資料庫,完全公開使用,和使用深度學習進行影像註解。演講中,李飛飛分享個人研究歷程並勾勒人工智慧的遠景。
本文介紹由 OpenAI 發表的強化學習中基準模型,並藉由國外軟體工程師所繪畫的生動動畫來做直覺式的強化學習介紹以及教學。在漫畫中,將會比較蒙地卡羅和 Advantage Actor Critic (A2C) 模擬方法的不同,並將強化學習中的基礎觀念融入漫畫中。
<p>普華永道(PwC)聯合會計事務號發表了他們對 2018 年人工智慧的趨勢預測。本文將簡略合併 PwC 提出的十項預測於四大類,對每一類介紹並了解為何 PwC 認為這十項預測的發展值得關注,以及如何應用到工業的領域中。</p>
介紹李飛飛(Fei Fei Li )教授的『我們如何教導電腦瞭解影像』的 TED 演講導讀。演講中,李飛飛教授簡述利用電腦視覺進行物體辨識的簡史,亦提及她的研究領域:包括用群眾集資完成巨量影像資料庫,完全公開使用,和使用深度學習進行影像註解。演講中,李飛飛分享個人研究歷程並勾勒人工智慧的遠景。
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在 AI說書 - 從0開始 - 110,介紹了 BLEU 使用方法與公式,現在我們再跑一個例子: #Example 3 reference = [['the
Thumbnail
當你剛學會技術分析時,可能會想趕快賺錢,但要提醒自己,短線交易需要合理的心態管理,否則容易陷入剛學會技術分析時過度交易瘋狂大賠的局面。這篇通過心理學家史金納的老鼠實驗,帶給你交易心態上的啟發。
什麼是「批判思考」(critical thinking)?十個人可能會有十一種答案。 古希臘詩人阿爾基羅庫斯(Archilochus)曾講過一則寓言:「狐狸懂很多事,刺猬則只知道一件大事。」當這兩種動物面臨威脅時,狐狸會據他所知,找出最合適的解決辦法;但刺蝟不管遇到什麼困難,都只會把自己捲成一顆球。
悟真終於覺得念頭被支配,究竟藏著什麼?如果我是原作者,我心沒有什麼?就是很可能原作者隱藏著的。狐狸心?對於我沒有狐狸心,我發現了忍者小狐狸就是暴露出原作者了。忍者小狐狸不是我,我可以是忍者小狐狸。這是一種新思考,還有這絕對是一種次生的覺悟。 悟假想要什麽?次生活法?這就是原作者一心經營的事業。次生
Thumbnail
本文介紹了蝴蝶效應、馬太效應和二八法則的概念,論述了微小改變對未來的巨大影響,並提倡選擇性處理問題,花精力在主要問題上,追求卓越。
Thumbnail
在各位心中的皮卡丘究竟是長什麼樣子呢?卡通裡的米老鼠,究竟是什麼樣的穿搭?作為人們童年回憶之一的小叮噹,這個噹字究竟有沒有口部呢? 這次夢羽將帶大家來探討,3個關於曼德拉效應的實例
Thumbnail
類比思維是一個強大的學習工具,你可以通過它來連結兩個完全不同的主題,加深對學習內容的理解。這篇文章將介紹類比思維的重要性和如何應用。同時還提到了知名精靈巧思,他利用類比思維來讓學生更深入地理解知識和記憶知識,文章還提供了AI探索類比應用的方法,讓讀者可以更好地理解和應用類比思維。
Thumbnail
獨角獸模型是一個複合式的模型,由ICT的三個概念組合而成:破壞塊(Breaker)、公允價值缺口(Fair Value Gap)以及時間段(Killzone),透過細緻的學習和訓練,將會是你在2024年看過最好用的策略!本文將詳細介紹獨角獸模型的邏輯,以及實際的交易例子,歡迎大家一起來學習。
Thumbnail
《結構洞》作者提到強調轉型變革不需勇氣,而是要從思維、組織、系統等方面作根本改變。作者以黃鼠狼與雞的故事比喻盲目勇敢的危險,認為真正的轉型需深層次的改變。文章還提到,如浴室防水層問題,結構性的因素是不可忽視的。
Thumbnail
很開心遇到《整理想法的技術》這本書,它的言簡意賅,讓我閱讀中有了不少啟發,對我而言,如果問我看這本書,最大的收獲是什麼?我要說的整理就是「捨」,書中很多道理相近,我自己「分類」後,我覺得就是「捨的力量」!而這個捨的力量,運用在日常生活中竟是出奇的有意思,今天就來分享一下我把這本書運用在生活中的例子,
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在 AI說書 - 從0開始 - 110,介紹了 BLEU 使用方法與公式,現在我們再跑一個例子: #Example 3 reference = [['the
Thumbnail
當你剛學會技術分析時,可能會想趕快賺錢,但要提醒自己,短線交易需要合理的心態管理,否則容易陷入剛學會技術分析時過度交易瘋狂大賠的局面。這篇通過心理學家史金納的老鼠實驗,帶給你交易心態上的啟發。
什麼是「批判思考」(critical thinking)?十個人可能會有十一種答案。 古希臘詩人阿爾基羅庫斯(Archilochus)曾講過一則寓言:「狐狸懂很多事,刺猬則只知道一件大事。」當這兩種動物面臨威脅時,狐狸會據他所知,找出最合適的解決辦法;但刺蝟不管遇到什麼困難,都只會把自己捲成一顆球。
悟真終於覺得念頭被支配,究竟藏著什麼?如果我是原作者,我心沒有什麼?就是很可能原作者隱藏著的。狐狸心?對於我沒有狐狸心,我發現了忍者小狐狸就是暴露出原作者了。忍者小狐狸不是我,我可以是忍者小狐狸。這是一種新思考,還有這絕對是一種次生的覺悟。 悟假想要什麽?次生活法?這就是原作者一心經營的事業。次生
Thumbnail
本文介紹了蝴蝶效應、馬太效應和二八法則的概念,論述了微小改變對未來的巨大影響,並提倡選擇性處理問題,花精力在主要問題上,追求卓越。
Thumbnail
在各位心中的皮卡丘究竟是長什麼樣子呢?卡通裡的米老鼠,究竟是什麼樣的穿搭?作為人們童年回憶之一的小叮噹,這個噹字究竟有沒有口部呢? 這次夢羽將帶大家來探討,3個關於曼德拉效應的實例
Thumbnail
類比思維是一個強大的學習工具,你可以通過它來連結兩個完全不同的主題,加深對學習內容的理解。這篇文章將介紹類比思維的重要性和如何應用。同時還提到了知名精靈巧思,他利用類比思維來讓學生更深入地理解知識和記憶知識,文章還提供了AI探索類比應用的方法,讓讀者可以更好地理解和應用類比思維。
Thumbnail
獨角獸模型是一個複合式的模型,由ICT的三個概念組合而成:破壞塊(Breaker)、公允價值缺口(Fair Value Gap)以及時間段(Killzone),透過細緻的學習和訓練,將會是你在2024年看過最好用的策略!本文將詳細介紹獨角獸模型的邏輯,以及實際的交易例子,歡迎大家一起來學習。
Thumbnail
《結構洞》作者提到強調轉型變革不需勇氣,而是要從思維、組織、系統等方面作根本改變。作者以黃鼠狼與雞的故事比喻盲目勇敢的危險,認為真正的轉型需深層次的改變。文章還提到,如浴室防水層問題,結構性的因素是不可忽視的。
Thumbnail
很開心遇到《整理想法的技術》這本書,它的言簡意賅,讓我閱讀中有了不少啟發,對我而言,如果問我看這本書,最大的收獲是什麼?我要說的整理就是「捨」,書中很多道理相近,我自己「分類」後,我覺得就是「捨的力量」!而這個捨的力量,運用在日常生活中竟是出奇的有意思,今天就來分享一下我把這本書運用在生活中的例子,