智慧的第二次突破：預期獎勵與強化學習

Morris Yen

發佈於幸福

2025/10/02 更新2025/10/02 發佈閱讀 3 分鐘

「強化學習」作為智慧第二次重大突破的本質。

「強化」是脊椎動物出現後，智慧從被動判斷（線蟲的效價平衡）走向主動訓練與學習的關鍵飛躍。

1. 「強化」的生物學基礎

載體與時間：發生在寒武紀大爆發後出現的脊椎動物身上。
核心能力：具備大腦結構的脊椎動物能夠透過條件反射來被訓練，進行長時間的學習。
神經機制： 多巴胺神經元在中腦深處變得至關重要。

2. 多巴胺：不是「快樂」，而是「預期」

對 AI 研究的反饋，徹底重新定義了多巴胺的作用：

快樂激素-->預期信號: 多巴胺管理的不是快樂本身，而是對快樂的預期。當你預期好事將發生時，多巴胺就會噴湧，帶來興奮感。
獎勵信號-->強化信號: 多巴胺是為了「強化」促成該預期的行為，而非單純地獎勵最終結果。這解釋了賭博（老虎機）等活動中，即使持續輸錢，預期仍能驅使行為持續。

3. AI 的借鑒：時序差分學習

AI 在應用「強化」機制時遇到的挑戰是延遲獎勵問題（Credit Assignment Problem）——很難將最終結果（例如贏棋）歸因於很久以前的行動。

薩頓的解決方案：提出使用「預期的獎勵」來強化行為，而非實際的終局獎勵。
機制與成果：
- 時序差分學習：將 AI 分為「做事」和「評判」兩部分。當「評判者」認為當前行為將導向勝利（預期做對了）時，就給予正向反饋。
- 應用：這種方法成功訓練出著名的國際象棋機器人深藍（Deep Blue），使其能高效學習。

4. 學習的本質：與預期結合

預期獎勵對於高效學習至關重要：

高效學習：像打遊戲或打麻將，其內建的即時反饋和不斷湧現的預期（「下一步我就會成功」）能夠持續觸發多巴胺，使人無需外力推動（如培訓班）也能投入學習。
低效學習：如果學習與大量的失望和無趣結合，就沒有預期，自然缺乏多巴胺的強化，導致學習效果不佳。

5. 追蹤時間的能力（失望與解脫）

脊椎動物的「強化」機制進一步演化，使其具備了追蹤時間的能力：

失望：預期好事發生，但結果沒有。
解脫：預期壞事發生，但結果沒有。

這兩種機制都能帶來學習，因為它們提供了預期與現實之間的誤差信號。這也證明了脊椎動物（包括魚類）具備比七秒更長的時間追蹤和記憶能力。

智慧的第二次突破，確立了「預期」是學習和行為強化的核心驅動力，這一發現不僅是生物演化的高光時刻，也為現代強化學習 AI 奠定了理論基石。

真是給我很好的提醒, 多多運用"預期獎勵" 激勵自己!!!

留言

Morris Yen的沙龍

102會員

108內容數

沒事就好...

Morris Yen的沙龍的其他內容

2025/10/02

為什麼要兩側對稱, 開始主動讓定向移動和決策轉向成為可能?

兩側對稱在生物進化史上的一個關鍵優勢：讓定向移動和決策（轉向）成為可能。為什麼「兩側對稱」才能有效轉向？兩側對稱是從原始的輻射對稱或軸對稱進化而來的重大突破，其優勢主要體現在以下兩個方面： 1. 產生明確的「前」與「後」哲學意義上的轉變：從「到處都是家」到「有目標的前進」軸

2025/10/02

為什麼要兩側對稱, 開始主動讓定向移動和決策轉向成為可能?

2025/10/01

智慧的第一次重大飛躍：從等待到行動的轉向策略

智慧演化第一次重大突破的核心邏輯：從被動的「等待」到主動的「行動」。早期多細胞生物如何突破原始的認知限制，實現了從對環境的「反應」到對生存的「主動判斷」的質變。 1. 原始的「等待策略」 (Waiting Strategy) 定義：原始生命體，如單細胞生物（細菌）或海底藻類，採取的生

2025/10/01

智慧的第一次重大飛躍：從等待到行動的轉向策略

2025/10/01

了解過去能夠更好地"準備"未來

為什麼了解過去很重要？模式識別：歷史並非簡單的重複，但人類行為、經濟週期、社會變革等往往會展現出相似的模式和趨勢。例如，研究過去的經濟泡沫或戰爭的爆發，可以幫助我們識別當前情境中的潛在風險信號。因果關係的建立：過去的事件為我們提供了大量的實驗數據。透過回顧歷史，我們可以分析特定行動或決策導致

2025/10/01

了解過去能夠更好地"準備"未來

看更多

你可能也想看

邊境牧羊犬的觀察筆記

邊境選書｜毛毛蟲也會被揠苗助長？從生物學習成長之道——《生物轉大人的種種不可思議》

你相信這個世界上的萬事萬物，都有值得學習的精神嗎？由日本生物學者稻垣榮洋所創作的《生物轉大人的種種不可思議》一書之中，就以動物和植物的生長方式，反思人類的生活。提到生物學，或許有些人會覺得好像很深奧，然而這本書讀起來意外的很輕鬆，而且常常會有讓人讀了點頭如搗蒜的內容，個人覺得非常有趣，值得一讀！

#成長#自我成長#個人成長

2024/05/08

邊境牧羊犬的觀察筆記

邊境選書｜毛毛蟲也會被揠苗助長？從生物學習成長之道——《生物轉大人的種種不可思議》

#成長#自我成長#個人成長

2024/05/08

卡頓貓的沙龍

貓反應速度比人類快7倍?

一般來說，貓的反應速度確實比人類快得多。這主要與貓的生理結構和進化歷程有關。神經系統：貓的神經系統進化得更快速，使得牠們對於周遭環境的變化能夠更快做出反應。這是為了捕捉獵物、回應潛在的威脅以及保持警覺性而發展起來的特點。肌肉結構：貓的肌肉結構也為牠們提供了更快的動作能力。牠們的肌肉結構和

2024/01/14

2024/01/14

固定行為模式許多動物經常會被特定條件觸發特定行為。例如有一種肉食螢火蟲a會捕食另一種螢火蟲b。 a會在b的繁殖季發出b種雌蟲的光，然後b就會自動飛過去送頭。另一個例子則是火雞，火雞馬麻會對一種幼火雞特殊的嘰嘰叫產生反應並做出育兒行為。富有實驗精神的科學家就用火雞天敵——臭鼬的形象做了個會發出

2024/01/29

2024/01/29

人類是大自然裡的頂級獵食者。比狼還狡詐。比獅群還懂圍毆。能夠在死亡追逐中逼死羚鹿。能製造出精巧的工具。為了更好生存，人類藏起狡詐露出善良，將圍毆矯飾成多數決，把過人的耐力用來忍受偽裝的不適，用腦袋進行學習和沉澱。

2024/07/11

2024/07/11

動物溝通是什麼？與動物行為學、動物行為改變技術不同，並非以動物的行為、外觀、習性等線索作為溝通之橋梁。透過第六感知覺接收或自發性感覺到動物的影像、聲音、氣味、情緒或觸覺等等。

2024/02/20

一粒米的沙龍

【動物溝通】一次看懂什麼是動物溝通！

2024/02/20

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

長期以來，西方美學以《維特魯威人》式的幾何比例定義「完美身體」，這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯．奧尼奎庫的舞作《轉轉生》，探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼，反而利用華麗的秀場視覺，引導觀眾在晚期資本主義的消費愉悅之中，而能驚覺「批判」本身亦可能被收編——而當絞繩升起，這場關於如何生存的黑色遊戲，又將帶領新時代的我們走向何種後現代的自我解構？

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

李四郎的沙龍

詩心就是童心

每天讀讀寫寫像貓科練習撲咬領悟時會像海龜優游汪洋大海還能吃咬水母或如同鷹隼以王者之姿翱翔天際彷彿獵豹跟鯊魚那樣迅捷宛若獅子和老虎一般強壯比花豹比章魚更靈巧從夢裡悄悄搬磚頭到現實建築童話心靈滲入天地萬物

2024/06/19

2024/06/19

在理解與拒絕之間：從多重身分觀看《海妲．蓋柏樂》

若說易卜生的《玩偶之家》為 19 世紀的女性，開啟了一扇離家的窄門，那麼《海妲．蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆，同為熟稔文本的演員，亦是深刻體察制度縫隙的當代女性，此文所看見的不僅僅是崩壞前夕的最後發聲，更是女人被迫置於冷酷的制度之下，步步陷入無以言說的困境。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28