AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
6/100 第一週:📌 強化學習概論
6.策略與價值函數解析 🧭 找出最優策略的導航圖!
________________________________________
🎯 單元導讀:
強化學習的目標,是讓 AI 找到一套能夠在不同情況下做出最佳選擇的策略(Policy)。
那麼,如何知道什麼策略好、什麼策略壞?這就要靠**價值函數(Value Function)**的幫助。
價值函數就像一張決策導航圖,幫助智慧體在複雜環境中衡量每一個選擇的長期利益,進而逼近「最優策略」。
________________________________________
🔍 一、什麼是策略(Policy)?
策略 π 是智慧體用來決定行動的「行為準則」。
• 在狀態 s 下,應該採取什麼行動 a?
• 策略可以是:
o 確定性策略(Deterministic Policy):總是執行特定行動
π(s)=a
o 隨機性策略(Stochastic Policy):以某種機率分佈選擇行動
π(a∣s)=P[a∣s]
📌 策略是智慧體的「行為風格」,隨著學習過程持續優化。
________________________________________
📈 二、什麼是價值函數(Value Function)?
價值函數衡量「從某個狀態或行動開始,長期能獲得多少總報酬」,是策略優劣的依據。
狀態價值函數 V(s): 該狀態下的期望總報酬 若從狀態 s 開始行動,長期可得多少回報?
動作價值函數 Q(s, a): 該狀態+行動下的期望總報酬 若在狀態 s 做出行動 a,接下來長期的總報酬是多少?
________________________________________
🧠 三、價值函數公式解析
🔑 公式的核心思維:
• 每一次選擇都會影響下一個狀態與未來的累積回報
• 折扣因子 γ 讓你思考「你重視短期還是長期」
• 策略 π 影響你後續會怎麼繼續選擇
📌 折扣因子 γ(0 < γ ≤ 1)用來控制「重視未來」的程度。
________________________________________
🚀 四、什麼是最優策略與最優價值函數?
• 最優策略 π*:在任何狀態下都能獲得最高期望總報酬的策略
• 最優狀態價值函數 V*(s):
V∗(s)=max Vπ(s)
• 最優動作價值函數 Q*(s, a):
Q∗(s,a)=max Qπ(s,a)
兩者之間的關係是:在任何狀態下,最優狀態價值V∗(s)等於在所有可能的行動中,挑出對應的最優動作價值Q∗(s,a)裡的最大值。這就是為什麼強化學習裡常常透過學習Q∗(s,a),就可以直接找到最佳決策策略。
📌 透過學習這兩種最優函數,智慧體就能推導出最聰明的行為模式!
________________________________________
🕹 五、舉例:你是求職者,怎麼用策略與價值學習?
你現在是一個求職者,面對人生的多種選擇。你的「狀態 s」就是你目前所擁有的條件,例如學歷、技能、所在城市、家庭狀況等等。你可以選擇的「行動 aaa」包含:去申請 AI 新創公司、報考公職、出國留學、或者先進修一段時間。你需要建立一套「策略 π(s)」,也就是:當你處於某個狀態時,該採取哪一種生涯行動最合適。對於每個可能的行動,你心中會有一個「動作價值函數 Q(s,a))」,它反映你對該選擇的長期總報酬預估,例如薪資潛力、職涯成就感、生活品質、家庭平衡等等。
你的目標,就是透過學習與分析,找到那個能讓 Q(s,a)最大化的選擇,建立出最適合自己的最優策略 π∗,讓未來的整體人生價值達到最高。
________________________________________
🧪 六、如何從價值函數導出策略?
一旦學會 Q 值,就能透過「貪婪策略(Greedy Policy)」找出最佳行動:
π∗(s)=arg max Q∗(s,a)
👉 換句話說:意思是:在每一個狀態 𝑠下,直接選擇那個擁有最大 Q 值的行動
𝑎。
這就是許多強化學習演算法(如 Q-Learning、DQN)背後的核心原理。
🔑 一句白話總結:
學會 Q 值,就是學會了如何在每一個狀態做出最佳決策。
________________________________________
🧩 七、思考挑戰與任務
1️⃣ 你是否曾用「經驗值」去判斷哪條人生路值得走?
👉 這其實就是在構建你的 Q(s,a)。
• 沒錯!當你累積生活中的選擇經驗(例如:某個專業學歷帶來好工作、某個人脈帶來新機會),你其實是在腦中建立自己的「動作價值估計」——也就是 Q(s,a)。
• 每次的經驗回饋,讓你逐漸更新心中對各種行動結果的評價。
• 你的大腦,其實早就在用「經驗回饋 + 逐步修正」的方式在做 reinforcement learning。
________________________________________
2️⃣ 想一想:如果你的人生策略 π 是 AI 模型學來的,會不會更有效率?
• 如果讓 AI 模型幫你建立生涯策略 π,AI 可能會:
o 納入大量數據(市場趨勢、過來人經驗、薪資成長曲線)
o 動態模擬可能路徑的長期回報(折扣因子 γ)
o 幫你更客觀地估算 Q 值,避免人類主觀偏誤(例如短視、情緒化)
• 你的人生決策將可能更「全局最優」(Global Optimal),而不是像人類常常只看到局部次優。
________________________________________
3️⃣ 你如何在每個關鍵狀態做出「Q 值最大化」的選擇?
• 步驟可以是:
(1) 釐清自己當下狀態 s(例如:學歷、技能、經濟條件、年齡)
(2) 列出可以採取的行動選項 a(例如:升學、轉職、創業、繼續現職)
(3) 預估各選項的長期回報 Q(s,a):
o 收入
o 成長機會
o 生活品質
o 自我實現
(4) 最後,選擇那個目前預估 Q 值最高 的行動
• 這其實就是你在「用 Q 值做人生決策」。
________________________________________
👉 反思:
在強化學習中,尤其是靠「貪婪策略(Greedy Policy)」導出的時候,若環境複雜、資訊不足,很容易卡在局部最優:
你看到某個行動 𝑎 當下的 Q 值最高
但其實如果你曾經多花點時間「探索」其他行動,會發現遠方有更好的 Q 值
這就是經典的 Exploration vs Exploitation (探索與利用困境)
_______________________________________
✅ 八、小結與啟示
• 策略決定智慧體在每個狀態該怎麼行動,是學習的核心目標
• 價值函數幫助衡量行動的長期好壞,是策略優化的依據
• 尋找「最優策略 π*」的過程,就是 AI 不斷進步與演化的過程
• 真實生活中的選擇,也可以用 RL 的觀點重新思考與優化!
• 強化學習給我們一套非常棒的「思考架構」,但真實人生需要的不只是計算,更需要智慧去理解那些「無法被量化的 Q 值」。









