第三部《強化學習》54/100 基礎 Actor-Critic 架構 🧑‍🎤「演員」做決策、「評論員」評價表現!

更新 發佈閱讀 11 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

54/100 第六週:📌 策略梯度與 Actor-Critic 架構

54.基礎 Actor-Critic 架構 🧑‍🎤「演員」做決策、「評論員」評價表現!

_______________________________________

🎯 單元導讀

在前幾單元中,我們學習了兩大路線:

Q-Learning:學習狀態-動作的價值 Q(s, a)

策略梯度:直接學習行為策略 π(a|s),用回報調整策略參數

那麼,是否有可能把兩者結合在一起,讓學習更穩定、更有效?

答案就是:Actor-Critic 架構!

這是一種將「策略學習」與「價值估計」融合的經典方法:

Actor 負責選擇行動

Critic 負責評估行動的好壞

兩者互相合作,使學習不再迷失方向!

________________________________________

🧠 一、什麼是 Actor-Critic 架構?

Actor-Critic 將智慧體分為兩部分:

+-----------+------------------------+----------------------------+

| 元件 | 功能 | 輸出 |

+-----------+------------------------+----------------------------+

| 🎭 Actor | 學習策略 | π(a|s; θ) |

+-----------+------------------------+----------------------------+

| 🧾 Critic | 學習價值函數 (V 或 Q) | 評估當前策略的好壞 |

+-----------+------------------------+---------------------------

Actor 負責學會「該怎麼做」的策略分布 𝜋(𝑎∣𝑠;𝜃),

Critic 負責「評分」每個狀態或動作的價值 𝑉(𝑠)或 𝑄(𝑠,𝑎)

兩者互相協作,讓學習既有方向又有穩定度。

_____________________________________

🔁 二、Actor-Critic 的更新方式

策略更新:

θ ← θ + α * ∇θ log π(a|s; θ) * A_t

評論員提供的優勢 A_t:

A_t = G_t - V(s) ← Advantage(優勢函數)

也就是:

評論員告訴演員:「這個動作做得比你預期的好(或差),請相應調整你下次的機率!」

評論員自身的價值函數也會學習:

Loss = (G_t - V(s))²

________________________________________

🧪 三、架構圖解(概念示意)


+--------------+

State --> | Actor | --- Action -->

+--------------+ |

Environment

+--------------+ Reward, Next State

State --> | Critic | <--------------+

+--------------+

這張圖展示了 Actor-Critic 架構的核心流程:Actor 負責根據當前狀態選擇動作送入環境,環境回饋新的狀態與獎勵;Critic 則評估 Actor 的行動好壞,並提供學習信號,幫助 Actor 調整策略。如此形成一個循環,讓策略學習(Actor)與價值估計(Critic)互相配合,加速且穩定強化學習的過程。

Actor 根據 Critic 的評價進行策略更新

Critic 則根據真實回報持續改進估值 V(s)

________________________________________

📈 四、為何 Actor-Critic 更穩定?

傳統的 REINFORCE 策略梯度方法使用整集 episode 的累積回報 𝐺𝑡作為學習信號,必須等整局結束後才能更新,導致方差較大、收斂速度較慢;而 Actor-Critic 方法則結合價值函數,利用 TD 誤差或 Advantage 來提供即時且更穩定的學習信號,能在互動過程中逐步更新,降低方差,加快收斂速度與穩定性。

________________________________________

🧠 五、實作邏輯總結(PyTorch 範例簡述)

python

# Actor 輸出動作機率分布

# Critic 輸出狀態價值 V(s)

log_prob = actor(state).log_prob(action)

value = critic(state)

# TD Target = r + γ * V(s')

advantage = reward + gamma * next_value - value

# 更新 Actor

actor_loss = -log_prob * advantage.detach()

# 更新 Critic

critic_loss = (value - target_value).pow(2)

________________________________________

📌 六、適合 Actor-Critic 的任務範例

在不同應用任務中,Actor-Critic 架構發揮分工協作的優勢:在自動駕駛中,Actor 負責控制方向與加減速,而 Critic 評估所選路徑對長期安全的影響;在投資決策中,Actor 制定買賣行動,Critic 根據資金配置後的長期收益進行評價;在遊戲操作 AI 中,Actor 持續執行策略,Critic 依據比賽分數或勝率提供回饋,指引策略調整方向。

________________________________________

🔍 七、常見變體與進階版本

方法名稱 核心改進

A2C(Advantage Actor-Critic) 使用 Advantage 取代 G_t

A3C(Asynchronous A2C) 多智慧體並行學習提升效率

PPO(Proximal Policy Optimization) 加入策略更新限制避免過衝

DDPG / SAC 將 Actor-Critic 應用到連續動作領域

________________________________________

🧩 八、問題與思考 💭

1️⃣ Actor 若沒有 Critic 協助,會遇到什麼困難?

👉

若只有 Actor(例如單純使用 REINFORCE),每次學習都要等整個 episode 結束才能累積回報 𝐺𝑡,這樣的學習信號方差很大,導致訓練震盪、收斂慢,且無法即時得知哪些行動比較好或比較壞。缺少 Critic 協助時,Actor 很難快速辨識哪些行為值得增強,學習效率大幅降低。

2️⃣ 為什麼將 TD 誤差當作 Advantage 可以提升學習穩定性?

👉

TD 誤差提供了「當前行動比預期好或壞多少」的即時訊號,相當於一種近似的 Advantage(相對優勢)。相比使用完整回報 𝐺𝑡 ,TD 誤差不需等完整 episode,能快速修正近期的偏差,降低回報估計的方差,使更新方向更穩定、收斂更有效率。

公式觀念:

Advantage ≈ TD誤差 = [r + γV(s') - V(s)]

3️⃣ 在真實生活中,有哪些情境像是「一個人決策、一個人給建議」的協作方式?

👉

例如:

新創公司中,創辦人(Actor)做出經營決策,而顧問(Critic)根據市場反饋給予策略建議;

駕訓學員開車(Actor)時,教練(Critic)在旁適時指導駕駛行為;


選手賽(Actor)時,教練(Critic)在場邊觀察比賽情況,提供戰術修正建議。

這些情境都反映了 Actor-Critic 的合作精神:行動者執行,評論者提供即時評估與調整建議,促進整體表現提升。

________________________________________

✅ 九、小結與啟示

Actor-Critic 是策略學習與價值學習的完美結合

Actor 學會如何行動,Critic 負責幫他評估效果

可逐步學習、方差小、效率高,是現代強化學習的核心架構

就像生活中:主動嘗試 + 實時反饋 = 穩定成長!



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
12會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/25
Q-Learning 透過學習行動價值(Q 值)來選擇最優行動,收斂快,適合離散任務;策略梯度則直接學習行為策略,適合連續控制與隨機性需求,但方差高、效率較低。兩者各有優缺點,實務上常結合成 Actor-Critic 架構,以兼顧效率與穩定性。
2025/09/25
Q-Learning 透過學習行動價值(Q 值)來選擇最優行動,收斂快,適合離散任務;策略梯度則直接學習行為策略,適合連續控制與隨機性需求,但方差高、效率較低。兩者各有優缺點,實務上常結合成 Actor-Critic 架構,以兼顧效率與穩定性。
2025/09/24
REINFORCE 是最基本的策略梯度法,透過整集 episode 回報更新策略,強化高回報動作。優點是簡單直觀、適合連續動作;缺點是方差大、收斂慢。加入 baseline 可降低方差,奠定 Actor-Critic 方法基礎。
2025/09/24
REINFORCE 是最基本的策略梯度法,透過整集 episode 回報更新策略,強化高回報動作。優點是簡單直觀、適合連續動作;缺點是方差大、收斂慢。加入 baseline 可降低方差,奠定 Actor-Critic 方法基礎。
2025/09/24
策略梯度方法直接學習行為策略 π(a|s;θ),不再估計 Q 值,適合連續動作與需隨機性的任務。透過 REINFORCE 與基準線、Actor-Critic 等改進,能減少方差、提升穩定性。應用於機器手臂、自駕車、金融與語言生成,強調試錯中直接修正行為分布。
2025/09/24
策略梯度方法直接學習行為策略 π(a|s;θ),不再估計 Q 值,適合連續動作與需隨機性的任務。透過 REINFORCE 與基準線、Actor-Critic 等改進,能減少方差、提升穩定性。應用於機器手臂、自駕車、金融與語言生成,強調試錯中直接修正行為分布。
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
如何利用AI的寶貴技能 AI很好用,但要用對問題,它是一個浩瀚大海,無所不包,所以要有不同的思考方式,而批判式思維,就是解決問題的方法。批判性思維和解決問題的能力在現代社會中是非常寶貴的技能。這些能力不僅僅限於某個領域,而是可以應用於各種情境中,尤其是在管理和技術領域。以下是如何運用批判性思維
Thumbnail
如何利用AI的寶貴技能 AI很好用,但要用對問題,它是一個浩瀚大海,無所不包,所以要有不同的思考方式,而批判式思維,就是解決問題的方法。批判性思維和解決問題的能力在現代社會中是非常寶貴的技能。這些能力不僅僅限於某個領域,而是可以應用於各種情境中,尤其是在管理和技術領域。以下是如何運用批判性思維
Thumbnail
反省就是重寫自己的演算法吧? 假設我就是人工智慧,或心智的可以被看作爲人工智慧的編輯器,那我的程式碼是什麼樣的? 從懵懂無知到一無所知,從自以為是到自我消逝,心智只是執行它的內容,我也需要不斷優化。 最好的優化就是簡化。 最能創造財富的演算法就是關於如何除錯與減少任何風險。
Thumbnail
反省就是重寫自己的演算法吧? 假設我就是人工智慧,或心智的可以被看作爲人工智慧的編輯器,那我的程式碼是什麼樣的? 從懵懂無知到一無所知,從自以為是到自我消逝,心智只是執行它的內容,我也需要不斷優化。 最好的優化就是簡化。 最能創造財富的演算法就是關於如何除錯與減少任何風險。
Thumbnail
本文討論了在AI時代下我們需要具備的職能,例如提問力、判斷力和專業能力。同時也提到了在使用AI時需要注意的事情,以及一些問答希望可以跟讀者有所互動與交流。另外作者也分享了自己使用AI工具的心得,並期待可以幫助初學者更快地瞭解如何應對AI的基礎邏輯。
Thumbnail
本文討論了在AI時代下我們需要具備的職能,例如提問力、判斷力和專業能力。同時也提到了在使用AI時需要注意的事情,以及一些問答希望可以跟讀者有所互動與交流。另外作者也分享了自己使用AI工具的心得,並期待可以幫助初學者更快地瞭解如何應對AI的基礎邏輯。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
《超越AI的思考框架》聚焦決策與組織心智,強調思考品質提升。探討因果、反事實、限制等概念,旨在改進決策。內容基礎,對新手入門有助。提倡多元思維,拓展決策框架。雖深度不足,但與管理學理論相輔相成。
Thumbnail
《超越AI的思考框架》聚焦決策與組織心智,強調思考品質提升。探討因果、反事實、限制等概念,旨在改進決策。內容基礎,對新手入門有助。提倡多元思維,拓展決策框架。雖深度不足,但與管理學理論相輔相成。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News