第三部《強化學習》11/100 確定策略與隨機策略 📜 固定行為還是依機率調整?

更新 發佈閱讀 7 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》

11/100 第二週:📌 策略與動態規劃

11.確定策略與隨機策略 📜 固定行為還是依機率調整?

______________________________________

🎯 單元導讀:

強化學習的靈魂是「策略(Policy)」,那麼策略可以長什麼樣子?

本單元要介紹兩種基本策略型態:

確定策略(Deterministic Policy):每個狀態下只有一個固定的行動

隨機策略(Stochastic Policy):每個狀態下的行動是根據某個機率分布來選擇的

這兩種策略在不同場景下有各自的優勢與限制,掌握它們,能幫助你在設計演算法與環境時做出最佳選擇!

________________________________________

🧾 一、確定策略(Deterministic Policy)

形式:

π(s)=a

意思是:在狀態 s 下,總是選擇同一個行動 a。

📌 特點:

簡單直接

容易實作與部署

計算效率高

📌 適用場景:

環境相對穩定、可預測

策略經過訓練已達穩定收斂

無需探索

________________________________________

🎲 二、隨機策略(Stochastic Policy)

形式:

π(a∣s)=P[a∣s]

意思是:在狀態 s 下,會根據機率來選擇行動 a,不再是固定不變。

📌 特點:

保持一定探索能力(不容易陷入局部最優)

可適應更複雜、非線性或不穩定的環境

有助於多樣化策略訓練,提升泛化能力

📌 適用場景:

競爭環境(如博弈對手學會預測你的行為)

高維策略空間

策略需要保持隨機性來防止被剋制(如對弈遊戲)

________________________________________

🔍 三、比較分析:Deterministic vs Stochastic

在強化學習中,**確定性策略(Deterministic)與隨機性策略(Stochastic)**各有其特性。

確定性策略在每個狀態下總是選擇固定行動,行為高度一致且易於預期,實作相對簡單,常見於 Q-learning 與 DQN 等演算法,且收斂速度通常較快,但探索能力較弱,容易陷入局部最優。

相對地,隨機性策略會依照機率分布選擇行動,行為具有波動性與不確定性,能在學習過程中維持探索彈性,有助於跳出局部陷阱,適用於 Policy Gradient、REINFORCE 等演算法,雖然實作複雜度較高,收斂速度則需視探索設定與環境特性而定。兩者適用場景不同,實務上常依任務需求搭配運用。

________________________________________

🕹 四、舉例應用場景

在實際應用中,確定策略與隨機策略常依情境需求搭配運用。例如在機器人手臂組裝時,動作需高度精準與穩定,因此採用確定策略以保證每次動作一致可控;

而如AlphaGo 下棋這類對弈型任務,則透過隨機策略在訓練與比賽中增加行動多樣性與不可預測性,避免被對手破解;

另外在自駕車轉彎決策上,訓練初期使用隨機策略以探索各種可能情境與路徑,學習最適行為,待模型訓練成熟後,部署實際上路則轉用確定策略,確保行車安全與穩定性。不同任務階段與需求,決定了策略設計的取捨與調整。

________________________________________

🧩 五、思考挑戰與任務

1️⃣ 你是否有過一套「固定的處事模式」?這是確定策略還是隨機策略?

是的。

我在面對學習與工作時,通常會有一套「穩定規律漸進法」的處事模式:

蒐集資訊 → 分析 → 擬定計畫 → 執行 → 反思調整 → 穩步推進。

這樣的模式屬於確定策略(Deterministic Strategy),因為每次遇到問題,基本上會依循類似的流程去處理,行動路徑有明確的規則與程序。即便細節上有微調,但整體邏輯是一致而可預測的。

不過,在創新、探索未知領域(如學新技術、嘗試新市場)時,我偶爾會有短期的**隨機策略(Stochastic Strategy)**介入,例如:

嘗試不同學習資源

嘗試不同的專案工具或AI框架

測試新技術的實驗性小專案

這些屬於有控制範圍內的「探索性隨機行為」。

________________________________________

2️⃣ 若你是一個 AI 投資顧問,你覺得該使用哪一種策略模式?為什麼?

混合型策略(以確定為主、適度融入隨機性)最適合。

在AI投資顧問角色中,必須負責處理大量的歷史資料、財務模型、風險控制,因此主體策略應該是確定性的,依據數據模型做出理性判斷,例如:

o 資產配置模型

o 風險對沖模型

o 預期報酬計算模型

但考量到市場存在高度不確定性、黑天鵝事件、非理性行為,適當融入「受控隨機性」是必要的。例如:

o 使用蒙地卡羅模擬預估多重可能路徑

o 針對部分資金進行策略多樣化測試

o 保留彈性以應對突發事件或市場異常反應

結論:核心以確定策略為穩定框架,但外圍保有隨機策略當作「探索保險」,增加系統的韌性與適應性。

________________________________________

3️⃣ 當環境變化不斷時,是否該保留一點隨機性以因應未預期的變化?

應該保留。

在快速變化的環境中,完全確定性的系統容易在環境變動下產生「路徑依賴」與「盲區固化」。適度的隨機性可以:

增加探索新機會的機會成本

減少陷入局部最優的風險

保持系統的靈活與應變能力

這跟**強化學習中的「ε-greedy 策略」**非常相似:

大部分時間執行已知最優解( exploitation )

小部分時間嘗試新選擇( exploration )

尤其在科技、金融、創業這種充滿不確定性的領域,「適度隨機性」其實是一種風險控制策略,不是混亂,而是有節制的彈性設計。

________________________________________

✅ 六、小結與啟示

策略可以是「固定選擇」(確定策略)或「依機率選擇」(隨機策略)

確定策略適合穩定環境、追求一致決策

隨機策略能增加探索與抗對手預測能力,常用於策略梯度法與博弈場景

學習階段可用隨機策略保持靈活性,部署階段再轉為穩定策略更佳!



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
9會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/23
本章回顧強化學習核心:智慧體透過回饋試錯學習,涵蓋 MDP、V(s) 與 Q(s,a)、策略 π 及 ε-greedy 探索利用。應用於遊戲、自駕車、金融與機器人。範例以 Python 建立「猴子抓香蕉」Q-learning 小遊戲,示範 RL 如何自學最佳策略。
2025/09/23
本章回顧強化學習核心:智慧體透過回饋試錯學習,涵蓋 MDP、V(s) 與 Q(s,a)、策略 π 及 ε-greedy 探索利用。應用於遊戲、自駕車、金融與機器人。範例以 Python 建立「猴子抓香蕉」Q-learning 小遊戲,示範 RL 如何自學最佳策略。
2025/09/23
本單元介紹強化學習(RL)的主要應用場景,包括遊戲、自駕車、機器人、金融與物流等領域,並延伸至醫療、教育與 AI 助手。RL 透過試錯與回饋優化策略,適合「決策序列+明確回報」場景,逐步推進至產業核心。
2025/09/23
本單元介紹強化學習(RL)的主要應用場景,包括遊戲、自駕車、機器人、金融與物流等領域,並延伸至醫療、教育與 AI 助手。RL 透過試錯與回饋優化策略,適合「決策序列+明確回報」場景,逐步推進至產業核心。
2025/09/23
本單元說明強化學習的核心挑戰——探索與利用的平衡。利用能帶來穩定報酬,但可能錯失全局最優;探索雖冒險,卻能開拓突破機會。ε-greedy 與衰減策略提供折中方法,幫助智慧體在不同階段調整行為。人生抉擇同樣需要在穩健與創新間動態取捨。
2025/09/23
本單元說明強化學習的核心挑戰——探索與利用的平衡。利用能帶來穩定報酬,但可能錯失全局最優;探索雖冒險,卻能開拓突破機會。ε-greedy 與衰減策略提供折中方法,幫助智慧體在不同階段調整行為。人生抉擇同樣需要在穩健與創新間動態取捨。
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
今天想分享我怎麼「用 AI 設計一個學習流程」讓我把學過的英文「真的記住,並且用的出來」 這個過程不會碰到複雜的技術,只需結合基本學習原則,還有在ChatGPT用中文下指令的技巧,這樣你以後就可以針對自己想學的英文內容設計客製化的學習材料跟練習過程喔!
Thumbnail
今天想分享我怎麼「用 AI 設計一個學習流程」讓我把學過的英文「真的記住,並且用的出來」 這個過程不會碰到複雜的技術,只需結合基本學習原則,還有在ChatGPT用中文下指令的技巧,這樣你以後就可以針對自己想學的英文內容設計客製化的學習材料跟練習過程喔!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
自動化思考(Automatic Thinking)是心理學中的一個概念,它指的是人們在日常生活中進行的快速、無意識和自動的「思路-反應」捷徑。
Thumbnail
自動化思考(Automatic Thinking)是心理學中的一個概念,它指的是人們在日常生活中進行的快速、無意識和自動的「思路-反應」捷徑。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
《超越AI的思考框架》聚焦決策與組織心智,強調思考品質提升。探討因果、反事實、限制等概念,旨在改進決策。內容基礎,對新手入門有助。提倡多元思維,拓展決策框架。雖深度不足,但與管理學理論相輔相成。
Thumbnail
《超越AI的思考框架》聚焦決策與組織心智,強調思考品質提升。探討因果、反事實、限制等概念,旨在改進決策。內容基礎,對新手入門有助。提倡多元思維,拓展決策框架。雖深度不足,但與管理學理論相輔相成。
Thumbnail
瞭解人生決策過程中的關鍵能力,包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力,同時改變思維模式和成功經營模式,挑戰自我,在市場競逐中找到關鍵的能力。
Thumbnail
瞭解人生決策過程中的關鍵能力,包括把握人生精度、看透世界本質、提升決策品質、思維進化與重啟、領導/管理智慧鑑識以及精進商業模式。學習在判斷力、思考維度、槓桿和深度思考方面提高自己的能力,同時改變思維模式和成功經營模式,挑戰自我,在市場競逐中找到關鍵的能力。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News