人工智慧的「強化學習」與人類學習的優劣─學習的本質（12）

2025/02/12 更新2022/02/13 發佈閱讀 17 分鐘

作者：陳華夫

人工智慧的學習可分為4類：（1）監督學習；(2)非監督學習；(3) 半監督學習及(4)強化學習。前三者的學習中，它的大數據庫裡都有「真品」（本尊），所以都是在「真品」的監督下學習或識別與分類，而強化學習卻是在尋找和探討「真品」。所以，在前三者的領域中，人工智慧與人類的學習各有優勢；以人臉辨識領域來說，人類圖像識別的能力可說是與生俱來，不需學習，人們不可能錯把隔壁的大嬸，誤認為自己的母親，相反的，人臉辨識卻要辛苦的從事監督學習，才能提高辨識率，目前人臉辨識軟體的準確性大幅提高，可以用於門禁管理，金融付款，及監控辨識等應用。

而語音辨識技術之應用，包括語音撥號、語音導航、室內裝置控制、語音文件檢索、簡單的聽寫資料錄入等。人類辨認語言的不同口音，問題不大。但語音辨識軟體要即時把聲音轉換成正確的字幕，挑戰很大，譬如電視新聞，國會問政轉播要即時打上字幕，難度就很高。但若是先由語音辨識軟體打出辨識結果，再由速記員校正錯誤之處，則上傳速度與準確度都大幅提高。（見最熟陳時中與劉寶傑聲音的AI！陽明交大團隊：肯蹲低，才精準）

第3種半監督學習，最近在蛋白質摺疊領域受到矚目，谷歌（Google）的DeepMind公司發展的深度學習軟體─AlphaFold 在2018/12月的第13屆蛋白質結構預測技術的關鍵測試（CASP）的總體排名中名列第一。其加強版AlphaFold2的蛋白質預測準度逼近滿分，結構生物學家 Petr Leiman 感嘆，用價值一千萬美元的電子顯微鏡努力地解了好幾年，AlphaFold2 竟然一下就算出來了。蛋白質摺疊的研究對癌症、病毒類感染，抗生素、靶向藥的開發，新效率的酶研發等極為重要。（見兩大頂級 AI 演算法開源！Alphafold2 蛋白質預測準度逼近滿分，將顛覆生醫產業樣貌， AlphaFold2 爆火背後人類為什麼要死磕蛋白質）

據英國《金融時報》2022/7/29日的報導，谷歌（Google）的DeepMind公司發展的深度學習軟體─AlphaFold構建了迄今最完整、最準確的數據庫，其中包含逾2億種已知蛋白質。已經超越科學知識的極限，預測出幾乎所有已知蛋白質的形狀。這項突破將顯著加快生物學發現的步伐。它的CEO德米斯•哈薩比斯表示：「我們可以開始考慮端到端的藥物設計。那將是我的夢想，在開發新藥和治療方法時，你可以加快整個過程，而不僅是結構部分的工作。這一天即將到來。」也就是可以展開癌症、病毒類感染，抗生素、靶向藥、新效率的酶等藥物研發。（見DeepMind宣布可預測幾乎所有蛋白質結構）

但第四類強化學習才是真正意義上的學習，這門學問起步很早，在1998年，強化學習的聖經─《Reinforcement learning─ An introduction》（第一版）─即問世，但因為裡面包括「動態規劃」（Dynamic Programming，DP）及「馬可夫決策過程」（Markov Decision Processes，MDP）等數課題，所以比前3者較難入門，所以一直不是熱門的研究。

但是情況有了革命性的轉變；2017年谷歌（Google）的DeepMind公司在權威的《自然》期刊是發表了強化學習史上劃時代的論文:「Mastering the game of go without human knowledge,David Silver, .et.al, Nature, 550, 354-359, 2017」（中文翻譯：不需要人類圍棋經驗練的超級電腦圍棋軟體），而這個超級電腦圍棋軟體就是舉世聞名的 AlphaGo Zero。

AlphaGo Zero之所以是強化學習史上劃時代的進展，是因為它擺脫了它的前身版本─AlphaGo Lee及AlphaGo Master ─必須借助使用人類KGS圍棋伺服器棋譜進行監督學習，也就是要借助人類圍棋的經驗來培訓。但AlphaGo Zero不同，它完全由零（Zero）開始，不需要人為指導，自己和自己對弈訓練，而不斷的自我改善棋力，40天之內可以打敗它的前身版本，成為是圍棋史上棋力遠遠超過人類的最強的電腦圍棋軟體。（詳細，見拙文「人工智慧」的AlphaGo「圍棋革命」─圍棋的本質（1），及為什麼 AlphaGo Zero?）

AlphaGo Zero的遠近馳名的成功，強化學習也水漲船高，成為深度學習最熱門的課題之一，而應用到熱門的自動駕駛產業；目前世界電動車一哥特斯拉的技術非常先進，其Model S、Model X、Model Y 還是Model 3，Autopilot(AP，輔助駕駛) 都是標準配備。而2017年，中國百度Apollo（阿波羅）計畫正式上路，並以此構建自動駕駛商業生態。2021年，北京用戶可以在百度地圖及Apollo官網上預約體驗Robotaxi。 2021/4/7日百度研發製造的35輛百度Apollo（阿波羅）自動駕駛汽車首次獲得了商業運營許可。（見拙文電動汽車世界爭霸啟示錄（II）─科技與智慧（32））

目前人工智慧研究，加拿大和美國、中國和英國是公認的世界 4 大強國，特斯拉的馬斯克創辦的 OpenAI ， Facebook（臉書） AI Research（FAIR），及谷歌的DeepMind是有名的三大公司。2021年，FAIR員工不到 400 人，而谷歌的DeepMind全球擁有約 1,000 名員工，大部分都在倫敦總部上班。其餘員工分布於加拿大及法國巴黎等地。如今爭奪世界最頂尖的 AI 人才的競爭激烈，頂尖 AI 研究人員的年薪有時高達 100 萬美元。（DeepMind 持續引爆全球頂尖 AI 人才搶奪戰，多倫多成為戰火延燒重點城市）

中國的商湯科技（創始人、CEO徐立）是電腦視覺和人臉辨識領域最大的系統開發商，還投入大筆資金創建了一個超級計算平台。該公司5000名員工中的70%以上是研發人員，其外國投資者包括軟銀(SoftBank)、老虎環球(Tiger Global)和銀湖(Silver Lake)。2018年，商湯科技是全球市值最高的人工智能創業公司，市值45億美元。商湯科技為了避免美國監管機構，謹慎選擇香港為配售市場，但在2020年，商湯科技與其中國競爭對手曠視科技（專注於圖像識別和深度學習）、依圖科技（專注於智能城市和醫療）、和雲從科技 (專注於人臉辨識)一起被美國商務部列入黑名單，禁止向它們技提供美國技術。而在2021年底，商湯科技在香港上市前幾天，被列入投資黑名單，於是推遲赴港IPO上市。（見商湯科技的未來，及美國制裁對中國人工智能的影響微乎其微，商湯科技徐立：人工智能的下一步）

底下的文章解釋什麼是強化學習及比較其與人類學習的優劣：

1）強化學習的架構及方法：
強化學習的學習模型是先假設一系列學習狀態：St，St+1，St+2．．．．，然後，再建立一個策略函數π(a)，以規範各個動作a1，a2，a3，是如何把各種狀態變成下一個狀態及分別得到獎勵：Rt，Rt+1，Rt+2．．．．，而把任何一狀態St，經過策略函數π(a)，學習到終點所得到的總獎勵定義為：價值函數 Vπ(s) = Rt + Rt+1+ ．．．．然後不斷的改善π0(a)，π1(a)，π2(a)，．．．，及Vπ0(s)，Vπ1(s)，Vπ2(s)．．．．，直到學習出最佳的策略函數π*(a)及最佳的價值函數 V*(s)，如下圖。基本上，強化學習的學習就是想法寫出深度學習的演算法電腦程式，以求出最佳的策略函數π*(a)及最佳的價值函數 V*(s)。（見強化學習教程）

2）比較強化學習與人類的學習：
強化學習的方法基本上是基與心理學的行為主義學派的操作制約。它不同於古典的巴夫洛夫制約非自願反應，它是「行為主體」（agent）自願學習、是以適時的獎勵或懲罰來控制「行為主體」的學習。強化學習可說是操作制約之人工智慧的深度學習版，如下圖：

而相對的，通常人類學習複雜的事物之有效方法是自學，就是自我有「有意識」的、自覺的學習，是學習複雜事物（如微積分，物理、心裡學、經濟學、圍棋、高爾夫球等）唯一最有效的方法，也是人類學習勝過人工智慧學習的唯一法寶。其實踐方法即是經過精心組織的「刻意練習」，其要訣是3F：（1）Focus─專注學習目標，（2）Feedback─回饋達標差距，（3）Fix─不斷改善達標差距。在「刻意練習」中，主掌腦部記憶的海馬體可以生長，神經元也變的連接更多。大腦變得更聰明，更高效。（見諾貝爾獎的教育反思─「自學」與「學校教育」─科技與智慧（11））

3）強化學習的記憶體是人工神經網絡是殘差網路（ResNet）：
一般的卷積神經網路（CNN）中，插入一個以上的「捷徑連結」就成了殘差網絡（如下圖）。

而在AlphaGo Zero的強化學習裡最後學習的成果─價值函數 Vπ(s)─就被記憶在40模塊或20模塊組成的殘差網絡中的千千萬萬個數學參數裡，以致於人類無法理解這些學習的成果。
相反的，腦神經記憶網絡是由「語義記憶網絡」與「內隱記憶網絡」組成（如下圖所示）：

而我吸取強化學習之演算法的精髓，發展出人類的「強化學習式思考」架構，如下圖，詳細請看拙文思考、記憶、人腦解決之「強化學習式」思考架構─學習的本質（1）。

4）強化學習的學習成果無法舉一反三的學習轉移到新領域：
強化學習基本屬於深度學習，其演算法是無法提煉出規則和知識。那就意味著，無法舉一反三的學習轉移─也就是說，每次碰到類似問題，並非提煉舊有的知識，應用到新系統中，而必需重建和訓練新系統。例如，Google的DeepMind公司發展AlphaGo Lee，AlphaGo Master，及AlphaGo Zero等3個版本時，各個版本都是獨立構造，和獨立進行訓練的，各版本的圍棋知識無法舉一反三的學習轉移到其它的版本上，造成浪費資源。（詳細，見拙文AI「深度學習」的缺陷及我親身的補正？─科技智慧（5），及AlphaGo使用的強化學習是人工智慧新星？讓專家告訴你為什麼這不是通用解方）
而就因為人類可以舉一反三的學習，顯示人類不僅僅是以試錯(trial and error)產生的「實際經驗」，人類的思考可以在心靈中建立理論模型，產生「模擬經驗」來學習，可以大幅增加人類學習效率。（見拙文什麼是「思考」？如何「洞識」？何謂「思想家」？─開悟的本質（2））

至於人工智能的下一步會如何發展？商湯科技的創始人、CEO徐立的演講中有一段發人深省的話：「人類過往科研創新的範式，從最早經驗歸納的範式，到演繹推理的範式，被稱為是第一、第二範式。經驗歸納從培根開始，講了用資料做歸納。當有了電腦之後，比如模擬類比就是電腦在做推理演繹，比如大資料，第四範式大資料科學可以對應到經驗的歸納。這樣的範式在過往很長時間當中把創新的模式總結到這個框架當中。（見商湯科技徐立：人工智慧的下一步）

英國《金融時報》2022/4/11報導，迄今為止，許多最知名的人工智慧應用出現在遊戲、圖像識別和語音辨識。谷歌的DeepMind開發了舉世聞名的超級電腦圍─AlphaGo Zero，棋力遠遠超過人類。而生成式對抗網路（Generative Adversarial Network，GAN）讓兩個神經網路相互博弈的方式進行學習，而創造了深度偽造(deepfake)的視頻，將美国演员伯特•雷諾茲(Burt Reynolds)的臉替換成007詹姆斯•邦德(James Bond)電影中肖恩•康納利(Sean Connery)的臉；OpenAI以GPT-3為基礎的語言寫API（Application Programming Interface），而能模仿埃米莉·狄更生(Emily Dickinson)的風格寫詩歌。

根據斯坦福大學最新的人工智慧指數，2021年全球對人工智慧的私人投資同比增長了逾一倍，達到935億美元。自2015年以來，人工智慧的專利數量增加至30倍。雖然大宗商品、食品和能源價格一直以來都在飆升，但在過去五年里，一個機械臂的中位價格下降了46.2%。但人工智慧AI產業化轉型面臨著私營和公共部門之間知識和權力的日益失衡，而私營企業自然會優先考慮財務回報，而不是更廣泛的社會公益。（見人工智慧產業化的希望與風險共存）

2022/5/29日英國《金融時報》的為什麼你的公司裡找不到人工智慧？說：「雖然雲平台現在廣泛可用，但要想利用其潛力，還需要有精通雲計算的大學和組織。最後，組織需要特定的數據來賦予它們競爭優勢。數據可以來自內部，這意味著組織必須收集和處理數據；也可以來自外部，這種情況下，數據必須要超越基本交易數據才能發揮作用。僅憑上述的這些能力是不夠的。人工智慧的進步需要有競爭力的集群。雖然已經實現了知識全球化，但創新仍是地方性的。如果不能更好地理解這一切因素，越來越多的企業將被人工智慧革命甩在後面。」

腦科學與人工智慧 - 黃飛揚

DeepMind 持續引爆全球頂尖 AI 人才搶奪戰，多倫多成為戰火延燒重點城市

深度學習：新時代的鍊金術

谷歌在下一盤「人工智慧」大棋

AlphaGo設計師黃士傑：「最強的學習技能在人類的腦袋裡」

人類才不會被AI取代！《大腦如何精準學習》揭大腦6大優點：目前的人工智慧永遠學不來

AlphaGo使用的強化學習是人工智慧新星？讓專家告訴你為什麼這不是通用解方

從遊戲中學習 AI發展出同國小孩童般的認知能力

騰訊第一次種黃瓜，又長又直，還拿了獎

智慧農業上看185億美元，AI數據成數位轉型關鍵！

留言

陳華夫hwafuchen的沙龍

486會員

252內容數

思想家─理解、解釋、預測世界。發表：9篇「深度政經分析」、6篇「現代開悟之洞識」、10篇「學習的本質」、13篇「美中關係」、4篇「驀然回首」、21篇「文學與藝術」、36篇「科技與智慧」、9篇「圍棋的本質」、40篇「美中經濟」、28篇「美股的本質」、12篇「美聯儲的本質」、12篇「貨幣及美元的本質」，共201篇。

陳華夫hwafuchen的沙龍的其他內容

2025/01/31

DeepSeek影像生成之有「氣質」、「貴氣」的中國女士─學習的本質（25）

作者：陳華夫如DeepSeek版慈禧太后一樣，這個「有氣質的現代中國女士」中，有光線、陰影、立體感、和深度感等繪畫細節，但網友也請ChatGPT生成中國美女，並認其姿色較佳。但我卻認為DeeSeek較高明，一般人喜歡韓劇整形過、不食人間煙火的美少女，証明ChatGPT生成不了有氣質的中國青春少女。

2025/01/31

DeepSeek影像生成之有「氣質」、「貴氣」的中國女士─學習的本質（25）

2024/06/16

中國電動汽車成為全球龍頭的關鍵：供應鏈之「營養級」分析─深度政經分析（36）

作者：陳華夫營養級越高的行業越複雜，越具創新性，增長越快。中國電動汽車獨霸全球即是中國完整供應鏈的全面開花。但中國仍遠落後無完整供應鏈支持的美國SpaceX星艦飛船。關稅壁壘、尖端技術（如AI算力）、及晶片管制只能影響全球化貿易的公平競爭。

2024/06/16

中國電動汽車成為全球龍頭的關鍵：供應鏈之「營養級」分析─深度政經分析（36）

2024/06/07

解讀中國房地產的巨額債務危機之形成與政府救市組合拳能否成功？─深度政經分析（35）

作者：陳華夫中國於2024/5月推出救市房地產的三枝箭，固然短期可以刺激買氣，刺激房地產繁榮。但基本上並未根本解決包括房地產的巨額債務問題。房住不炒，房地產至少需要10年的時間才能解決。中國經濟的復甦將取決於如何完成漂亮的去槓桿化。

2024/06/07

解讀中國房地產的巨額債務危機之形成與政府救市組合拳能否成功？─深度政經分析（35）

看更多

你可能也想看

陳華夫hwafuchen的沙龍

人工智慧的「強化學習」與人類學習的優劣─學習的本質（12）

作者：陳華夫強化學習裡最後學習的成果─價值函數 Vπ(s)─就被記憶在40模塊或20模塊組成的殘差網絡中的千千萬萬個數學參數裡，人類的大腦把輸入的資訊編碼成故事基模（Schema），再整合編織故事基模而成為的「腦神經網絡」。如此的記憶及知識之構造有利於人類的記憶、解釋、理解、思考、及學習新知。

#強化學習#監督學習#非監督學習

2022/02/13

陳華夫hwafuchen的沙龍

人工智慧的「強化學習」與人類學習的優劣─學習的本質（12）

#強化學習#監督學習#非監督學習

2022/02/13

陳華夫hwafuchen的沙龍

請看懂智慧的本質：GPT-4的「人工通用智能」（AGI）落後人類有多遠？─學習的本質（22）

作者：陳華夫人類智慧的關鍵即：「意識就是一切。沒有它，就沒有世界，就沒有自我，就什麼都沒有。」GPT-4具有推理、創造力和演繹等核心心智能力，顯示出了人工通用智能（AGI）火花，但轉換器神經網絡所展現的思考並無自我意識，遠遠落後人類智慧，人工通用智能（AGI）的研發將是耗費鉅資的美夢。

#湧現能力#人工通用智能#AGI

2023/04/16

陳華夫hwafuchen的沙龍

請看懂智慧的本質：GPT-4的「人工通用智能」（AGI）落後人類有多遠？─學習的本質（22）

#湧現能力#人工通用智能#AGI

2023/04/16

christy tsang的沙龍

人工智能應用對企業的重要性？

人工智能是一種對計算機系統對人類智能過程的模擬，而人工智能應用（Artificial intelligence application）包括專家系統、自然語言處理、語音識別和機器視覺。

#citic#smartcloud#citictelecominternational

2022/06/22

christy tsang的沙龍

人工智能應用對企業的重要性？

#citic#smartcloud#citictelecominternational

2022/06/22

普普文創

【文創漫談】人工智慧與機器學習 | 如何利用AI | 增強能力

人工智慧是什麼？人工智慧（Artificial Intelligence, AI）簡單來說，就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序，可以執行許多原本需要人類智慧才能完成的工作，例如：語音辨識：讓電腦聽懂人類的語言，像是 Siri、Google As

#文創漫談#人工智慧與機器學習#如何利用AI

2024/07/30

普普文創

【文創漫談】人工智慧與機器學習 | 如何利用AI | 增強能力

#文創漫談#人工智慧與機器學習#如何利用AI

2024/07/30

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

Darren的沙龍

ChatGPT系列文(三)：我們與AI的界線

這篇文放草稿太久了，放到連GPT4都生出來了。不過沒差，內容通用。在系列文第一篇，就提到了GPT框架中有對人類語意回饋的學習機制。這機制有個專有名詞，叫強化學習 (Reinforcement Learning)。這讓機器不純粹依著既有資料模式，優化並生成預測；反而讓機器有更強的能力，去因應不同環境

#ChatGPT#人類#資訊

2023/03/15

Darren的沙龍

ChatGPT系列文(三)：我們與AI的界線

#ChatGPT#人類#資訊

2023/03/15

陳華夫hwafuchen的沙龍

AI「擬人化」學習真能比人類更具優勢創新嗎？─學習的本質（19）

作者：陳華夫 AI深度學習的圖像識別、人臉辨識、機器翻譯、及自動駕駛都有比人類優勢創新之處。深度學習無法學得抽象的概念知識，因此無法遷移學習（TL），但人類的學習卻可以學習遷移（ToL），因此人類擁有通用智慧。

#遷移學習#學習遷移#AI深度學習

2023/02/18

陳華夫hwafuchen的沙龍

AI「擬人化」學習真能比人類更具優勢創新嗎？─學習的本質（19）

#遷移學習#學習遷移#AI深度學習

2023/02/18

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11