第三部《強化學習》15/100 價值疊代（Value Iteration）📈 直接更新狀態價值！

Hansen W

發佈於AI科技機器學習修煉坊

2025/09/23 更新2025/09/23 發佈閱讀 8 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部：《強化學習 —— AI 的決策與進化》

15/100 第二週：📌 策略與動態規劃

15.價值疊代（Value Iteration）📈 直接更新狀態價值！

________________________________________

🎯 單元導讀：

前一篇我們介紹了「策略疊代」，交替進行策略評估與策略改善，可以學出最優策略。

這一篇要介紹的是它的「速成兄弟」——價值疊代（Value Iteration）！

價值疊代的核心理念是：

不用等策略評估收斂，直接更新每個狀態的價值，再即時選出最優行動！

它不但計算快、記憶體省，在許多離線策略學習中都扮演重要角色。

________________________________________

📘 一、價值疊代是什麼？

價值疊代（Value Iteration）是動態規劃方法之一，透過反覆更新價值函數 V(s)，逐步逼近最優狀態價值 V*(s)，然後從中導出最優策略。

它直接根據貝爾曼最優方程式（Bellman Optimality Equation）進行更新：

V(s) <- max_a Σ_s' [ P(s' | s, a) * ( R(s, a, s') + γ * V(s') ) ]

解析：

這個公式的意思是：

V(s)：目前狀態 s 的價值。

max_a：在所有可能的行動 a 中，挑選出能讓後續期望回報最大的那個行動。

Σ_s'：針對執行行動 a 後，可能轉移到的每個後續狀態 s' 進行加總。

P(s' | s, a)：在狀態 s 採取行動 a 之後，轉移到狀態 s' 的機率（環境轉移機率）。

R(s, a, s')：在 s 採取 a 轉移到 s' 後獲得的即時獎勵。

γ * V(s')：考慮未來從 s' 狀態開始的長期價值，並乘上折扣因子 γ（未來回報的重要性衰減）。

整個公式就是：

在每個狀態 s，我們計算對所有可能行動 a 的期望回報（立即獎勵 + 折扣後未來價值），選擇其中回報最大的 a，作為這次的 V(s) 更新。

不斷重複這個更新，V(s) 會逐漸逼近最優狀態價值 V*(s)。

📌 「價值疊代就是：每次對每個狀態，選擇未來期望回報最高的行動，來更新它的價值。」

________________________________________

🔁 二、價值疊代演算法流程

初始化 V(s) = 0（對所有狀態）

Repeat:

對每個狀態 s：

V(s) ← max_a Σ_{s'} P(s'|s,a) [ R(s,a,s') + γ V(s') ]

Until 所有 V(s) 的改變 < ε（收斂閾值）

最後策略 π(s) ← argmax_a Σ_{s'} P(s'|s,a) [ R(s,a,s') + γ V(s') ]

價值疊代的基本流程是：一開始將所有狀態的價值 V(s) 初始化為 0。接著反覆進行更新：對每個狀態 s，計算在所有可選行動 a 中，哪一個行動能帶來最高的期望回報（包含立即獎勵與未來價值），並用這個最大值來更新 V(s)。這樣的更新會一直進行，直到所有狀態的 V(s) 變化幅度小於預設的收斂閾值 ε，代表價值已經趨於穩定。最後，我們再根據收斂後的 V(s) 計算出每個狀態最佳的行動 π(s)，也就是對應能達到最大期望回報的行動，從而得到最優策略。

________________________________________

🧠 三、與策略疊代的比較

策略疊代與價值疊代在運作方式上有所不同。策略疊代是每輪分別完整執行一次評估與改進，單輪花費較久，但收斂輪數較少；而價值疊代則將評估與改進合併在每次更新中，單次運算較快，但需要更多輪才能收斂。策略疊代適合狀態空間較小、模型明確的情境，而價值疊代則更適合狀態龐大或需線上近似的複雜環境，運算資源更靈活。

📌 一句話總結：

策略疊代比較穩健，價值疊代比較快速。

________________________________________

🕹 四、舉例說明：猴子迷宮中的 V 更新

假設猴子在 5x5 格迷宮中，會這樣做價值疊代：

• 每一格的 V 值都初始化為 0

• 每次更新，根據四個方向模擬「走一步後」的回報 + 折扣未來價值

• 不用管策略是什麼，直接更新「哪個方向最划算」

等 V 值穩定後，從每個格子中挑出「Q 值最高的行動」，就能組成最終策略 π*！

________________________________________

📦 五、實務應用場景

價值疊代特別適用在模型已知的情境下，例如離線的規劃路徑任務中，像倉儲地圖可以事先計算出最短成本的最佳路線；在模擬環境訓練中，例如遊戲 AI，由於環境模型明確，能快速反覆運算學出強大的策略；此外，結合近似函數後（如 Deep Value Iteration），還可以擴展到大型或連續狀態空間的複雜問題，使得價值疊代的應用範圍更為廣泛。

________________________________________

🧩 六、思考挑戰與任務

1️⃣ 價值疊代能否應用在你生活中的某個決策情境？

在現實生活中，價值疊代的概念可以運用在許多決策上。例如找工作時，每份工作的薪資、發展潛力、人脈資源等，就像是不同的即時獎勵與長期價值。我們可以試著分析各個選項的長期回報（類似 V 值），並在每次獲得新資訊後不斷更新評估，逐漸找到最適合自己發展的選擇。又如日常選路或規劃行程時，也可以根據交通情況、花費時間、舒適度等多種因素，不斷調整路徑選擇，逼近最優行動路線。

2️⃣ 手動計算 3x3 迷宮中的 V 值更新流程

設想一個 3x3 迷宮，左上角為起點，右下角為出口，每移動一步扣 1 分，到達出口加 10 分。初始化 V(s)=0，然後反覆更新每個格子的 V 值，計算往上下左右移動的期望值，取最大值更新 V(s)。每輪更新後，各格子的 V 值會逐步逼近最佳值，最後穩定在最短路徑的期望回報上。這個過程幫助我們直觀理解價值疊代如何一步步逼近最優決策。

3️⃣ 若一個策略 π 無法產生最大回報，它的 V 值更新會有哪些限制？

如果採用的策略 π 不是最佳策略，它所計算出來的 Vπ(s) 只能反映當前策略下的長期回報，無法達到真正的最優 V*(s)。也就是說，它的更新結果會受限於該策略的行動選擇範圍，只能在既有行為下去累積回報，無法主動探索更高回報的路徑。要突破這個限制，就必須進行策略改善，將選擇空間擴大，才能讓 V 值進一步逼近最優結果。

________________________________________

✅ 七、小結與啟示

• 價值疊代是透過貝爾曼最優方程直接更新 V 值的高效學習方法

• 它不需要明確定義策略，而是透過 V 的「貪婪選擇」來推導策略

• 適合快速計算最優策略，尤其在狀態空間不大的情境中效果出色

• 真實生活中，我們也可以透過「直接評估行動的未來價值」來做出更聰明的選擇！

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

16會員

455內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/09/23

第三部《強化學習》14/100 策略疊代（Policy Iteration）🔁 評估 + 改進反覆進化！

策略疊代結合策略評估與策略改善，透過不斷循環更新，最終收斂為最優策略 π*。它具有單調提升與收斂保證，適用於迷宮導航、自駕車與遊戲對弈等場景，也是 AlphaZero 等演算法的重要基礎，人生決策亦可類比此過程。

2025/09/23

第三部《強化學習》14/100 策略疊代（Policy Iteration）🔁 評估 + 改進反覆進化！

2025/09/23

第三部《強化學習》13/100 策略改善（Policy Improvement）🔧 怎麼變得更聰明？

策略改善是強化學習中讓智慧體更聰明的關鍵，透過比較 Q 值選擇最佳行動，形成新策略。結合策略評估後，不斷迭代收斂至最優策略 π*，廣泛應用於迷宮導航等場景，也啟發人生決策應考量長期回報並持續優化行動。

2025/09/23

第三部《強化學習》13/100 策略改善（Policy Improvement）🔧 怎麼變得更聰明？

2025/09/23

第三部《強化學習》12/100 策略評估（Policy Evaluation）🧾 預測策略的長期回報！

策略評估用來計算在給定策略下，每個狀態的期望累積回報 Vπ(s)。核心公式是貝爾曼期望方程，透過值迭代逼近收斂。它不改變策略，而是評估策略好壞，為後續策略改善與價值型強化學習奠定基礎。

2025/09/23

第三部《強化學習》12/100 策略評估（Policy Evaluation）🧾 預測策略的長期回報！

看更多

你可能也想看

熙哥生意之道

人工智能AI和機器學習ML：業務升級的新動能

在當今快速發展的技術時代，人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程，AI和ML的應用範圍日益廣泛，為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢？

#AI#ML#人工智能

2024/07/26

熙哥生意之道

人工智能AI和機器學習ML：業務升級的新動能

#AI#ML#人工智能

2024/07/26

廣告雜誌

AI鋼鐵人計畫：從組織效率的全方位革新到會員行銷的未來

「Embrace AI to unlock a new era of efficiency, unleashing creativity and marketing infinite potencial.」擁抱AI，開啟效率新時代，釋放創意與行銷無限潛力

#科技#廣告雜誌#報導

2024/07/11

廣告雜誌

AI鋼鐵人計畫：從組織效率的全方位革新到會員行銷的未來

「Embrace AI to unlock a new era of efficiency, unleashing creativity and marketing infinite potencial.」擁抱AI，開啟效率新時代，釋放創意與行銷無限潛力

#科技#廣告雜誌#報導

2024/07/11

Learn AI 不 BI

AI說書 - 從0開始 - 78

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 77 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 78

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 77

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 76 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 77

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 76

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 75 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 76

#AI#ai#PromptEngineering

2024/07/07

自由豐盛社群 Glowing Up

AI 指令教學：找到下一個創業突破口

在這個快節奏的世界中，想保持創新並獲得突破，就需要懂得質疑、發現機會、快速行動並使用數據驗證想法。本文介紹了如何利用 AI 來找到下一個獨立創業突破口。想保持領先嗎？來看看這個指令吧！

2024/06/24

2024/06/24

生成式AI的進展大幅地影響著整個世界。企業從使用AI工具中看到了三個主要方面的收益包括提高銷售生產力、增加客戶滿意度和降低行銷開銷成本。這篇文章探討了AI在行銷中的應用和投資回報，並指出了使用時間、公司的數字化轉型階段和實驗對於AI工具的使用和效果有著重要影響。

2024/05/01

2024/05/01

每個產業都一樣,就是想像期階段都可以把"本益比估值拉高" 這個過去智慧型手機電動車航運鋼鐵 AI等等都表演過了很多AI產業過去10年本益比最多就是15倍上下波動而已例如我們有賺到高潮的廣運跟廣明還有磐儀,而2023年就拉高到30~40倍但基本面只要沒跟上,狗(股價)跑太快

2024/04/30

2024/04/30

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News