第三部《強化學習》6/10 策略與價值函數解析 🧭 找出最優策略的導航圖!

更新 發佈閱讀 8 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

6/100 第一週:📌 強化學習概論

6.策略與價值函數解析 🧭 找出最優策略的導航圖!

________________________________________

🎯 單元導讀:

強化學習的目標,是讓 AI 找到一套能夠在不同情況下做出最佳選擇的策略(Policy)。

那麼,如何知道什麼策略好、什麼策略壞?這就要靠**價值函數(Value Function)**的幫助。

價值函數就像一張決策導航圖,幫助智慧體在複雜環境中衡量每一個選擇的長期利益,進而逼近「最優策略」。

________________________________________

🔍 一、什麼是策略(Policy)?

策略 π 是智慧體用來決定行動的「行為準則」。

在狀態 s 下,應該採取什麼行動 a?

策略可以是:

o 確定性策略(Deterministic Policy):總是執行特定行動

π(s)=a

o 隨機性策略(Stochastic Policy):以某種機率分佈選擇行動

π(a∣s)=P[a∣s]

📌 策略是智慧體的「行為風格」,隨著學習過程持續優化。

________________________________________

📈 二、什麼是價值函數(Value Function)?

價值函數衡量「從某個狀態或行動開始,長期能獲得多少總報酬」,是策略優劣的依據。

狀態價值函數 V(s): 該狀態下的期望總報酬 若從狀態 s 開始行動,長期可得多少回報?

動作價值函數 Q(s, a): 該狀態+行動下的期望總報酬 若在狀態 s 做出行動 a,接下來長期的總報酬是多少?

________________________________________

🧠 三、價值函數公式解析

🔑 公式的核心思維:

每一次選擇都會影響下一個狀態與未來的累積回報

折扣因子 γ 讓你思考「你重視短期還是長期」

策略 π 影響你後續會怎麼繼續選擇

📌 折扣因子 γ(0 < γ ≤ 1)用來控制「重視未來」的程度。

________________________________________

🚀 四、什麼是最優策略與最優價值函數?

最優策略 π*:在任何狀態下都能獲得最高期望總報酬的策略

最優狀態價值函數 V*(s):

V∗(s)=max⁡ Vπ(s)

最優動作價值函數 Q*(s, a):

Q∗(s,a)=max⁡ Qπ(s,a)

兩者之間的關係是:在任何狀態下,最優狀態價值V∗(s)等於在所有可能的行動中,挑出對應的最優動作價值Q∗(s,a)裡的最大值。這就是為什麼強化學習裡常常透過學習Q∗(s,a),就可以直接找到最佳決策策略。

📌 透過學習這兩種最優函數,智慧體就能推導出最聰明的行為模式!

________________________________________

🕹 五、舉例:你是求職者,怎麼用策略與價值學習?

你現在是一個求職者,面對人生的多種選擇。你的「狀態 s」就是你目前所擁有的條件,例如學歷、技能、所在城市、家庭狀況等等。你可以選擇的「行動 aaa」包含:去申請 AI 新創公司、報考公職、出國留學、或者先進修一段時間。你需要建立一套「策略 π(s)」,也就是:當你處於某個狀態時,該採取哪一種生涯行動最合適。對於每個可能的行動,你心中會有一個「動作價值函數 Q(s,a))」,它反映你對該選擇的長期總報酬預估,例如薪資潛力、職涯成就感、生活品質、家庭平衡等等。

你的目標,就是透過學習與分析,找到那個能讓 Q(s,a)最大化的選擇,建立出最適合自己的最優策略 π∗,讓未來的整體人生價值達到最高。

________________________________________

🧪 六、如何從價值函數導出策略?

一旦學會 Q 值,就能透過「貪婪策略(Greedy Policy)」找出最佳行動:

π∗(s)=arg ⁡max ⁡Q∗(s,a)

👉 換句話說:意思是:在每一個狀態 𝑠下,直接選擇那個擁有最大 Q 值的行動

𝑎。

這就是許多強化學習演算法(如 Q-Learning、DQN)背後的核心原理。

🔑 一句白話總結:

學會 Q 值,就是學會了如何在每一個狀態做出最佳決策。

________________________________________

🧩 七、思考挑戰與任務

1️⃣ 你是否曾用「經驗值」去判斷哪條人生路值得走?

👉 這其實就是在構建你的 Q(s,a)。

沒錯!當你累積生活中的選擇經驗(例如:某個專業學歷帶來好工作、某個人脈帶來新機會),你其實是在腦中建立自己的「動作價值估計」——也就是 Q(s,a)。

每次的經驗回饋,讓你逐漸更新心中對各種行動結果的評價。

你的大腦,其實早就在用「經驗回饋 + 逐步修正」的方式在做 reinforcement learning。

________________________________________

2️⃣ 想一想:如果你的人生策略 π 是 AI 模型學來的,會不會更有效率?

如果讓 AI 模型幫你建立生涯策略 π,AI 可能會:

o 納入大量數據(市場趨勢、過來人經驗、薪資成長曲線)

o 動態模擬可能路徑的長期回報(折扣因子 γ)

o 幫你更客觀地估算 Q 值,避免人類主觀偏誤(例如短視、情緒化)

你的人生決策將可能更「全局最優」(Global Optimal),而不是像人類常常只看到局部次優。

________________________________________

3️⃣ 你如何在每個關鍵狀態做出「Q 值最大化」的選擇?

步驟可以是:

(1) 釐清自己當下狀態 s(例如:學歷、技能、經濟條件、年齡)

(2) 列出可以採取的行動選項 a(例如:升學、轉職、創業、繼續現職)

(3) 預估各選項的長期回報 Q(s,a):

o 收入

o 成長機會

o 生活品質

o 自我實現

(4) 最後,選擇那個目前預估 Q 值最高 的行動

這其實就是你在「用 Q 值做人生決策」。

________________________________________

👉 反思:

在強化學習中,尤其是靠「貪婪策略(Greedy Policy)」導出的時候,若環境複雜、資訊不足,很容易卡在局部最優:

你看到某個行動 𝑎 當下的 Q 值最高

但其實如果你曾經多花點時間「探索」其他行動,會發現遠方有更好的 Q 值

這就是經典的 Exploration vs Exploitation (探索與利用困境)

_______________________________________

✅ 八、小結與啟示

策略決定智慧體在每個狀態該怎麼行動,是學習的核心目標

價值函數幫助衡量行動的長期好壞,是策略優化的依據

尋找「最優策略 π*」的過程,就是 AI 不斷進步與演化的過程

真實生活中的選擇,也可以用 RL 的觀點重新思考與優化!

• 強化學習給我們一套非常棒的「思考架構」,但真實人生需要的不只是計算,更需要智慧去理解那些「無法被量化的 Q 值」。



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
16會員
459內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/23
馬可夫決策過程(MDP)是強化學習核心架構,包含狀態、行動、轉移、回報與折扣因子。強調馬可夫性質,僅依當前狀態與行動決策,藉由價值函數與策略優化,幫助 AI 在動態環境中學會最佳行為。
2025/09/23
馬可夫決策過程(MDP)是強化學習核心架構,包含狀態、行動、轉移、回報與折扣因子。強調馬可夫性質,僅依當前狀態與行動決策,藉由價值函數與策略優化,幫助 AI 在動態環境中學會最佳行為。
2025/09/23
馬可夫決策過程(MDP)是強化學習的核心框架,由狀態、行動、策略與獎勵構成。智慧體透過試錯與回饋調整策略,目標是最大化累積獎勵。折扣因子 γ 決定重視短期還是長期回報,幫助 AI 及人類學會更優決策。
2025/09/23
馬可夫決策過程(MDP)是強化學習的核心框架,由狀態、行動、策略與獎勵構成。智慧體透過試錯與回饋調整策略,目標是最大化累積獎勵。折扣因子 γ 決定重視短期還是長期回報,幫助 AI 及人類學會更優決策。
2025/09/23
強化學習的核心是智慧體在環境中行動,依據回報調整策略。回報非標準答案,而是指引方向,可能延遲出現。透過不斷互動與修正,AI 或人類皆能在遊戲、自駕車、投資等情境中逐步學會最優決策。
2025/09/23
強化學習的核心是智慧體在環境中行動,依據回報調整策略。回報非標準答案,而是指引方向,可能延遲出現。透過不斷互動與修正,AI 或人類皆能在遊戲、自駕車、投資等情境中逐步學會最優決策。
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
反省就是重寫自己的演算法吧? 假設我就是人工智慧,或心智的可以被看作爲人工智慧的編輯器,那我的程式碼是什麼樣的? 從懵懂無知到一無所知,從自以為是到自我消逝,心智只是執行它的內容,我也需要不斷優化。 最好的優化就是簡化。 最能創造財富的演算法就是關於如何除錯與減少任何風險。
Thumbnail
反省就是重寫自己的演算法吧? 假設我就是人工智慧,或心智的可以被看作爲人工智慧的編輯器,那我的程式碼是什麼樣的? 從懵懂無知到一無所知,從自以為是到自我消逝,心智只是執行它的內容,我也需要不斷優化。 最好的優化就是簡化。 最能創造財富的演算法就是關於如何除錯與減少任何風險。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News