AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
11/100 第二週:📌 策略與動態規劃
11.確定策略與隨機策略 📜 固定行為還是依機率調整?
______________________________________
🎯 單元導讀:
強化學習的靈魂是「策略(Policy)」,那麼策略可以長什麼樣子?
本單元要介紹兩種基本策略型態:
• 確定策略(Deterministic Policy):每個狀態下只有一個固定的行動
• 隨機策略(Stochastic Policy):每個狀態下的行動是根據某個機率分布來選擇的
這兩種策略在不同場景下有各自的優勢與限制,掌握它們,能幫助你在設計演算法與環境時做出最佳選擇!
________________________________________
🧾 一、確定策略(Deterministic Policy)
形式:
π(s)=a
意思是:在狀態 s 下,總是選擇同一個行動 a。
📌 特點:
• 簡單直接
• 容易實作與部署
• 計算效率高
📌 適用場景:
• 環境相對穩定、可預測
• 策略經過訓練已達穩定收斂
• 無需探索
________________________________________
🎲 二、隨機策略(Stochastic Policy)
形式:
π(a∣s)=P[a∣s]
意思是:在狀態 s 下,會根據機率來選擇行動 a,不再是固定不變。
📌 特點:
• 保持一定探索能力(不容易陷入局部最優)
• 可適應更複雜、非線性或不穩定的環境
• 有助於多樣化策略訓練,提升泛化能力
📌 適用場景:
• 競爭環境(如博弈對手學會預測你的行為)
• 高維策略空間
• 策略需要保持隨機性來防止被剋制(如對弈遊戲)
________________________________________
🔍 三、比較分析:Deterministic vs Stochastic
在強化學習中,**確定性策略(Deterministic)與隨機性策略(Stochastic)**各有其特性。
確定性策略在每個狀態下總是選擇固定行動,行為高度一致且易於預期,實作相對簡單,常見於 Q-learning 與 DQN 等演算法,且收斂速度通常較快,但探索能力較弱,容易陷入局部最優。
相對地,隨機性策略會依照機率分布選擇行動,行為具有波動性與不確定性,能在學習過程中維持探索彈性,有助於跳出局部陷阱,適用於 Policy Gradient、REINFORCE 等演算法,雖然實作複雜度較高,收斂速度則需視探索設定與環境特性而定。兩者適用場景不同,實務上常依任務需求搭配運用。
________________________________________
🕹 四、舉例應用場景
在實際應用中,確定策略與隨機策略常依情境需求搭配運用。例如在機器人手臂組裝時,動作需高度精準與穩定,因此採用確定策略以保證每次動作一致可控;
而如AlphaGo 下棋這類對弈型任務,則透過隨機策略在訓練與比賽中增加行動多樣性與不可預測性,避免被對手破解;
另外在自駕車轉彎決策上,訓練初期使用隨機策略以探索各種可能情境與路徑,學習最適行為,待模型訓練成熟後,部署實際上路則轉用確定策略,確保行車安全與穩定性。不同任務階段與需求,決定了策略設計的取捨與調整。
________________________________________
🧩 五、思考挑戰與任務
1️⃣ 你是否有過一套「固定的處事模式」?這是確定策略還是隨機策略?
是的。
我在面對學習與工作時,通常會有一套「穩定規律漸進法」的處事模式:
• 蒐集資訊 → 分析 → 擬定計畫 → 執行 → 反思調整 → 穩步推進。
這樣的模式屬於確定策略(Deterministic Strategy),因為每次遇到問題,基本上會依循類似的流程去處理,行動路徑有明確的規則與程序。即便細節上有微調,但整體邏輯是一致而可預測的。
不過,在創新、探索未知領域(如學新技術、嘗試新市場)時,我偶爾會有短期的**隨機策略(Stochastic Strategy)**介入,例如:
• 嘗試不同學習資源
• 嘗試不同的專案工具或AI框架
• 測試新技術的實驗性小專案
這些屬於有控制範圍內的「探索性隨機行為」。
________________________________________
2️⃣ 若你是一個 AI 投資顧問,你覺得該使用哪一種策略模式?為什麼?
混合型策略(以確定為主、適度融入隨機性)最適合。
• 在AI投資顧問角色中,必須負責處理大量的歷史資料、財務模型、風險控制,因此主體策略應該是確定性的,依據數據模型做出理性判斷,例如:
o 資產配置模型
o 風險對沖模型
o 預期報酬計算模型
• 但考量到市場存在高度不確定性、黑天鵝事件、非理性行為,適當融入「受控隨機性」是必要的。例如:
o 使用蒙地卡羅模擬預估多重可能路徑
o 針對部分資金進行策略多樣化測試
o 保留彈性以應對突發事件或市場異常反應
結論:核心以確定策略為穩定框架,但外圍保有隨機策略當作「探索保險」,增加系統的韌性與適應性。
________________________________________
3️⃣ 當環境變化不斷時,是否該保留一點隨機性以因應未預期的變化?
應該保留。
在快速變化的環境中,完全確定性的系統容易在環境變動下產生「路徑依賴」與「盲區固化」。適度的隨機性可以:
• 增加探索新機會的機會成本
• 減少陷入局部最優的風險
• 保持系統的靈活與應變能力
這跟**強化學習中的「ε-greedy 策略」**非常相似:
• 大部分時間執行已知最優解( exploitation )
• 小部分時間嘗試新選擇( exploration )
尤其在科技、金融、創業這種充滿不確定性的領域,「適度隨機性」其實是一種風險控制策略,不是混亂,而是有節制的彈性設計。
________________________________________
✅ 六、小結與啟示
• 策略可以是「固定選擇」(確定策略)或「依機率選擇」(隨機策略)
• 確定策略適合穩定環境、追求一致決策
• 隨機策略能增加探索與抗對手預測能力,常用於策略梯度法與博弈場景
• 學習階段可用隨機策略保持靈活性,部署階段再轉為穩定策略更佳!