智慧的第二次突破:預期獎勵與強化學習

更新 發佈閱讀 3 分鐘

「強化學習」作為智慧第二次重大突破的本質。


「強化」是脊椎動物出現後,智慧從被動判斷(線蟲的效價平衡)走向主動訓練與學習的關鍵飛躍。

1. 「強化」的生物學基礎

  • 載體與時間: 發生在寒武紀大爆發後出現的脊椎動物身上。
  • 核心能力: 具備大腦結構的脊椎動物能夠透過條件反射來被訓練,進行長時間的學習。
  • 神經機制多巴胺神經元在中腦深處變得至關重要。

2. 多巴胺:不是「快樂」,而是「預期」

對 AI 研究的反饋,徹底重新定義了多巴胺的作用:

  • 快樂激素-->預期信號: 多巴胺管理的不是快樂本身,而是對快樂的預期。 當你預期好事將發生時,多巴胺就會噴湧,帶來興奮感。
  • 獎勵信號-->強化信號: 多巴胺是為了「強化」促成該預期的行為,而非單純地獎勵最終結果。這解釋了賭博(老虎機)等活動中,即使持續輸錢,預期仍能驅使行為持續。

3. AI 的借鑒:時序差分學習

AI 在應用「強化」機制時遇到的挑戰是延遲獎勵問題(Credit Assignment Problem)——很難將最終結果(例如贏棋)歸因於很久以前的行動。

  • 薩頓的解決方案: 提出使用「預期的獎勵」來強化行為,而非實際的終局獎勵。
  • 機制與成果:
    • 時序差分學習: 將 AI 分為「做事」和「評判」兩部分。當「評判者」認為當前行為將導向勝利(預期做對了)時,就給予正向反饋。
    • 應用: 這種方法成功訓練出著名的國際象棋機器人深藍(Deep Blue),使其能高效學習。

4. 學習的本質:與預期結合

預期獎勵對於高效學習至關重要:

  • 高效學習: 像打遊戲或打麻將,其內建的即時反饋和不斷湧現的預期(「下一步我就會成功」)能夠持續觸發多巴胺,使人無需外力推動(如培訓班)也能投入學習。
  • 低效學習: 如果學習與大量的失望和無趣結合,就沒有預期,自然缺乏多巴胺的強化,導致學習效果不佳。

5. 追蹤時間的能力(失望與解脫)

脊椎動物的「強化」機制進一步演化,使其具備了追蹤時間的能力

  • 失望: 預期好事發生,但結果沒有。
  • 解脫: 預期壞事發生,但結果沒有。

這兩種機制都能帶來學習,因為它們提供了預期與現實之間的誤差信號。這也證明了脊椎動物(包括魚類)具備比七秒更長的時間追蹤和記憶能力。


智慧的第二次突破,確立了「預期」是學習和行為強化的核心驅動力,這一發現不僅是生物演化的高光時刻,也為現代強化學習 AI 奠定了理論基石。

真是給我很好的提醒, 多多運用"預期獎勵" 激勵自己!!!




留言
avatar-img
留言分享你的想法!
avatar-img
Morris Yen的沙龍
84會員
93內容數
沒事就好...
Morris Yen的沙龍的其他內容
2025/10/02
兩側對稱在生物進化史上的一個關鍵優勢:讓定向移動和決策(轉向)成為可能。 為什麼「兩側對稱」才能有效轉向? 兩側對稱是從原始的輻射對稱或軸對稱進化而來的重大突破, 其優勢主要體現在以下兩個方面: 1. 產生明確的「前」與「後」 哲學意義上的轉變:從「到處都是家」到「有目標的前進」 軸
2025/10/02
兩側對稱在生物進化史上的一個關鍵優勢:讓定向移動和決策(轉向)成為可能。 為什麼「兩側對稱」才能有效轉向? 兩側對稱是從原始的輻射對稱或軸對稱進化而來的重大突破, 其優勢主要體現在以下兩個方面: 1. 產生明確的「前」與「後」 哲學意義上的轉變:從「到處都是家」到「有目標的前進」 軸
2025/10/01
智慧演化第一次重大突破的核心邏輯:從被動的「等待」到主動的「行動」。 早期多細胞生物如何突破原始的認知限制,實現了從對環境的「反應」到對生存的「主動判斷」的質變。 1. 原始的「等待策略」 (Waiting Strategy) 定義: 原始生命體,如單細胞生物(細菌)或海底藻類,採取的生
2025/10/01
智慧演化第一次重大突破的核心邏輯:從被動的「等待」到主動的「行動」。 早期多細胞生物如何突破原始的認知限制,實現了從對環境的「反應」到對生存的「主動判斷」的質變。 1. 原始的「等待策略」 (Waiting Strategy) 定義: 原始生命體,如單細胞生物(細菌)或海底藻類,採取的生
2025/10/01
為什麼了解過去很重要? 模式識別:歷史並非簡單的重複,但人類行為、經濟週期、社會變革等往往會展現出相似的模式和趨勢。例如,研究過去的經濟泡沫或戰爭的爆發,可以幫助我們識別當前情境中的潛在風險信號。 因果關係的建立:過去的事件為我們提供了大量的實驗數據。透過回顧歷史,我們可以分析特定行動或決策導致
2025/10/01
為什麼了解過去很重要? 模式識別:歷史並非簡單的重複,但人類行為、經濟週期、社會變革等往往會展現出相似的模式和趨勢。例如,研究過去的經濟泡沫或戰爭的爆發,可以幫助我們識別當前情境中的潛在風險信號。 因果關係的建立:過去的事件為我們提供了大量的實驗數據。透過回顧歷史,我們可以分析特定行動或決策導致
看更多
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
「內文有狂熱因素請淡定諒解..謝謝-」 第一次認真去年開始 去療癒水果植物以及種植的土地 .所以才會在種植之前 完成獨角獸靈氣課程 題外: 因為自己蠻喜歡做研究實驗精神得 也包括觀察. 不過這些過程免不了也有人說.我有病. 蟑螂也有在研究觀察裡. 純粹因為這是個人的興趣. --
Thumbnail
「內文有狂熱因素請淡定諒解..謝謝-」 第一次認真去年開始 去療癒水果植物以及種植的土地 .所以才會在種植之前 完成獨角獸靈氣課程 題外: 因為自己蠻喜歡做研究實驗精神得 也包括觀察. 不過這些過程免不了也有人說.我有病. 蟑螂也有在研究觀察裡. 純粹因為這是個人的興趣. --
Thumbnail
平時較沉默內斂的小齊,因為對自然和恐龍感興趣,課堂中對於 Bonnie 老師的提問瞬間秒答,讓同學都對他的表現驚喜又佩服!
Thumbnail
平時較沉默內斂的小齊,因為對自然和恐龍感興趣,課堂中對於 Bonnie 老師的提問瞬間秒答,讓同學都對他的表現驚喜又佩服!
Thumbnail
人類是大自然裡的頂級獵食者。 比狼還狡詐。 比獅群還懂圍毆。 能夠在死亡追逐中逼死羚鹿。 能製造出精巧的工具。 為了更好生存, 人類藏起狡詐露出善良, 將圍毆矯飾成多數決, 把過人的耐力用來忍受偽裝的不適, 用腦袋進行學習和沉澱。
Thumbnail
人類是大自然裡的頂級獵食者。 比狼還狡詐。 比獅群還懂圍毆。 能夠在死亡追逐中逼死羚鹿。 能製造出精巧的工具。 為了更好生存, 人類藏起狡詐露出善良, 將圍毆矯飾成多數決, 把過人的耐力用來忍受偽裝的不適, 用腦袋進行學習和沉澱。
Thumbnail
每天讀讀寫寫像貓科練習撲咬 領悟時會像海龜優游汪洋大海 還能吃咬水母 或如同鷹隼以王者之姿翱翔天際 彷彿獵豹跟鯊魚那樣迅捷 宛若獅子和老虎一般強壯 比花豹比章魚更靈巧 從夢裡悄悄搬磚頭到現實建築 童話心靈滲入天地萬物
Thumbnail
每天讀讀寫寫像貓科練習撲咬 領悟時會像海龜優游汪洋大海 還能吃咬水母 或如同鷹隼以王者之姿翱翔天際 彷彿獵豹跟鯊魚那樣迅捷 宛若獅子和老虎一般強壯 比花豹比章魚更靈巧 從夢裡悄悄搬磚頭到現實建築 童話心靈滲入天地萬物
Thumbnail
筆記系統的涌現 在生物界中,"涌现"通常指的是生物系統中出現的新性質、行為或組織結構,這些特徵不是單個生物個體所具有的,而是整個生物群體或生態系統的性質。生物界的涌现是由生物個體之間的相互作用、群體行為以及環境因素共同作用而產生的。
Thumbnail
筆記系統的涌現 在生物界中,"涌现"通常指的是生物系統中出現的新性質、行為或組織結構,這些特徵不是單個生物個體所具有的,而是整個生物群體或生態系統的性質。生物界的涌现是由生物個體之間的相互作用、群體行為以及環境因素共同作用而產生的。
Thumbnail
你相信這個世界上的萬事萬物,都有值得學習的精神嗎?由日本生物學者稻垣榮洋所創作的《生物轉大人的種種不可思議》一書之中,就以動物和植物的生長方式,反思人類的生活。提到生物學,或許有些人會覺得好像很深奧,然而這本書讀起來意外的很輕鬆,而且常常會有讓人讀了點頭如搗蒜的內容,個人覺得非常有趣,值得一讀!
Thumbnail
你相信這個世界上的萬事萬物,都有值得學習的精神嗎?由日本生物學者稻垣榮洋所創作的《生物轉大人的種種不可思議》一書之中,就以動物和植物的生長方式,反思人類的生活。提到生物學,或許有些人會覺得好像很深奧,然而這本書讀起來意外的很輕鬆,而且常常會有讓人讀了點頭如搗蒜的內容,個人覺得非常有趣,值得一讀!
Thumbnail
動物溝通是什麼?與動物行為學、動物行為改變技術不同,並非以動物的行為、外觀、習性等線索作為溝通之橋梁。透過第六感知覺接收或自發性感覺到動物的影像、聲音、氣味、情緒或觸覺等等。
Thumbnail
動物溝通是什麼?與動物行為學、動物行為改變技術不同,並非以動物的行為、外觀、習性等線索作為溝通之橋梁。透過第六感知覺接收或自發性感覺到動物的影像、聲音、氣味、情緒或觸覺等等。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News