第三部《強化學習》88/100 能源管理與電網決策 🌞 優化儲能與能源分配！

Hansen W

發佈於AI科技機器學習修煉坊

2025/10/16 更新2025/10/16 發佈閱讀 14 分鐘

AI時代系列(3) 機器學習三部曲: 📘 第三部：《強化學習 —— AI 的決策與進化》

88/100 第九週：📌 強化學習應用實戰

88.能源管理與電網決策 🌞 優化儲能與能源分配！

________________________________________

📍 單元導言

隨著可再生能源（如太陽能、風能）的發展，能源供給變得不穩定、不連續。如何即時調度儲能設備、控制用電尖離峰、維持電網穩定，已成為智慧電網與**能源管理系統（EMS）**的關鍵議題。

傳統最佳化方法（如線性規劃）在面對動態變化時效能有限，而強化學習（RL）正逐步成為未來智慧能源管理的核心技術之一。

________________________________________

⚡ 一、電網能源管理的挑戰

挑戰項目說明

發電不穩定太陽能/風能受天氣影響，變動性高

用電行為多變智慧家電、EV 充電使用電時段與負載難以預測

儲能調度複雜需動態決定「何時儲電、何時釋放」以最大化效益

系統延遲與約束決策有延遲、容量限制、排程要求等實際因素

________________________________________

🔁 二、強化學習能解決什麼？

任務 RL 應用方式

儲能電池充放策略訓練 AI 自主決定放電/充電時機

太陽能 + 儲能併網管理根據預測需求與供應量學習分配策略

微電網（Microgrid）多點控制多 Agent RL 協調不同節點

動態價格用電（Time-of-Use）優化學會如何在電價低時儲電、高時供電

________________________________________

🧪 三、簡化模擬實作：單一電池儲能策略（Q-Learning）

🎯 問題定義：

• 目標：讓儲能設備在電價變動下，選擇最好的充放電行動，最大化報酬。

• 假設電池容量為 0～4 單位，每小時電價變動，AI 可選擇：充電、放電、維持不動。

________________________________________

🧾 Python 程式碼（簡化 Q-learning）

python

import random

actions = ['charge', 'discharge', 'hold']

battery_levels = list(range(5)) # 0~4 容量單位

prices = [1, 2, 3, 4, 5] # 每小時電價（模擬）

q_table = {(b, p): {a: 0 for a in actions} for b in battery_levels for p in prices}

alpha = 0.1

gamma = 0.9

epsilon = 0.1

# 獎勵函數

def get_reward(action, battery, price):

if action == 'charge' and battery < 4:

return -price # 充電 → 支出

elif action == 'discharge' and battery > 0:

return price # 放電 → 收入

else:

return 0 # 保持不動或無效動作

# 模擬充放電後電量變化

def next_battery(battery, action):

if action == 'charge' and battery < 4:

return battery + 1

elif action == 'discharge' and battery > 0:

return battery - 1

else:

return battery

# 訓練

for episode in range(3000):

battery = random.randint(0, 4)

for _ in range(20):

price = random.choice(prices)

state = (battery, price)

if random.random() < epsilon:

action = random.choice(actions)

else:

action = max(q_table[state], key=q_table[state].get)

reward = get_reward(action, battery, price)

next_bat = next_battery(battery, action)

next_price = random.choice(prices)

next_state = (next_bat, next_price)

next_max = max(q_table[next_state].values())

# Q-learning 更新

q_table[state][action] += alpha * (reward + gamma * next_max - q_table[state][action])

battery = next_bat

這段程式碼是一個簡單的電池儲能 Q-learning 強化學習範例。它模擬一個智能電池系統學習在不同電價下

• 狀態 (State)：電池當前電量（05）。

• 動作 (Action)：可以選擇 charge (充電)、discharge (放電)、或 hold (保持)。

• 獎勵 (Reward)：

o 充電會產生支出（-price）。

o 放電會產生收入（+price）。

o 其他狀況獎勵為 0。

• Q-learning學習：

o 每個迴圈模擬電價波動與隨機起始電量。

o 依據 ε-greedy 策略（90% 利用、10% 探索）選擇動作。

o 依據當前行為的結果與下一狀態的最大預期收益，更新 Q 值。

經過 3000 輪訓練後，q_table 會學習出在不同電價和電量下的最優行動策略，例如：電價高時放電，電價低時充電。

________________________________________

🧪 測試學習成果

python

battery = 2

for hour in range(10):

price = random.choice(prices)

state = (battery, price)

action = max(q_table[state], key=q_table[state].get)

print(f"第 {hour+1} 小時｜電價：{price}｜電量：{battery}｜行動：{action}")

battery = next_battery(battery, action)

這段程式碼的目的是在訓練完成後，用學到的 Q-table 來模擬實際運作的策略執行。說明如下：

初始設定：

將電池起始電量設為 2（中間值）。

模擬 10 小時運作：

每個小時隨機出現一個電價（模擬電價波動）。

根據目前的狀態 (battery, price)，查詢 q_table 中該狀態下最高的 Q 值所對應的最佳行動 (max(q_table[state], key=q_table[state].get))，完全按照學到的最佳策略執行，不再隨機探索。

印出當前小時的電價、電量與選擇的行動。

根據行動更新電池電量。

👉 這段就是驗證訓練成果的測試流程：讓電池依照學到的 Q-learning 策略面對動態電價，看它如何做出合理的充放電決策，嘗試達成「低價充電、高價放電」的獲利目標。

________________________________________

⚙️ 四、進階技術應用架構

類型演算法建議

單儲能裝置控制 DQN、Q-learning

多點電網調度 Multi-Agent PPO、MADDPG

預測+控制 LSTM + Actor-Critic

安全調度 Safe RL、Constrained RL

________________________________________

📚 小測驗題

1️⃣ 強化學習在電力調度中主要解決什麼問題？

A. 電力感測器的設計

✅ B. 儲能/用電動作的即時調度決策

C. 發電站硬體的製造

D. 照明系統設計

解析：

強化學習在電力應用中，最核心的價值在於針對隨時變動的電價、負載需求、儲能狀態等，學習出最佳的即時調度行為（例如：何時充電、放電或削峰填谷）。感測器設計、硬體製造與照明屬於硬體工程範疇，與強化學習應用目的無直接關聯。

________________________________________

2️⃣ 若希望多節點同時進行學習與協調，適合哪一種方法？

A. 單 Agent Q-learning

✅ B. Multi-Agent Reinforcement Learning

C. Autoencoder

D. GAN

解析：

當有多個儲能設備、負載節點或分散式資源需要共同協作時，單一 Agent 已無法處理整體系統的互動複雜度。多智能體強化學習 (Multi-Agent Reinforcement Learning, MARL) 允許多個學習體彼此感知對方行為並協調策略，適合用於智慧電網、多儲能協作等場景。Autoencoder 與 GAN 主要用於資料特徵學習與生成，非強化學習決策方法。

________________________________________

🔎 反思與討論 1

在現實智慧電網中，電價可能不是完全可預測的，有時會突然劇烈波動。你認為在面對高度不確定的價格環境下，強化學習模型需要注意哪些挑戰？有哪些可能的改進方法？

👉 例如：引入風險敏感強化學習、情境模擬訓練、或即時價格預測模型的輔助。

________________________________________

🔎 反思與討論 2

如果電池充放電行為除了電價以外，還受到電池老化、充電效率衰退、電網限制等因素影響，你會如何設計更符合真實場景的強化學習環境模型？

👉 思考：

• 獎勵函數要不要加入「電池壽命成本」？

• 狀態空間是否要擴展成多維參數？

• 是否要考慮長期收益而非單次收益？

________________________________________

🔎 反思與討論 3

在多節點分散式儲能系統中，若各個節點自私地只追求自己利潤，可能會導致整體電網失衡甚至危機。你認為強化學習如何引導系統達成整體協調與公平性？要不要引入某些「社會性獎勵」設計？

👉 可思考例如：

• 增設「全網穩定度」或「總用戶福利」的全局獎勵機制

• 引入 Multi-Agent 協作學習機制

• 平衡個體與整體的長期回報關係

_______________________________________

✨ 單元金句

「AI 電網不只是省電，更是在正確時間做對的能源決策。」

________________________________________

🔄 延伸挑戰任務

• 增加電池損耗成本與最大容量限制

• 加入太陽能供應預測變數，整合 DQN + LSTM 模型

• 使用真實時間電價數據進行訓練與回測（如台電 TOU 資料）

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

16會員

388內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/10/16

第三部《強化學習》87/100 教育領域中的個別化學習 🧑‍🏫 根據學生反應即時調整策略！

強化學習能打造個別化教育系統，AI 根據學生答題表現與熟練度動態調整題目難度與教學策略，實現因材施教。透過 Q-Learning、RNN 等技術，AI 能持續優化學習路徑，提升學生成效與參與度。

2025/10/16

第三部《強化學習》87/100 教育領域中的個別化學習 🧑‍🏫 根據學生反應即時調整策略！

2025/10/16

第三部《強化學習》86/100 醫療決策系統 🏥 AI 幫你選擇最佳治療路徑！

強化學習正逐步進入醫療決策核心，能根據病患數據學習最佳治療策略。它可處理長期延遲回饋與個人化反應，應用於糖尿病、癌症與 ICU 治療等領域，實現更精準、安全的智慧醫療。

2025/10/16

第三部《強化學習》86/100 醫療決策系統 🏥 AI 幫你選擇最佳治療路徑！

2025/10/16

第三部《強化學習》85/100 工業自動化決策流程 🤖 AI 接管控制流程不是夢！

強化學習讓工業自動化從被動控制邁向智慧決策。AI 能根據感測數據即時調整製程，學會在延遲回饋中優化策略，應用於溫控、節能、製程與裝配決策，成為真正的「工業大腦」。

2025/10/16

第三部《強化學習》85/100 工業自動化決策流程 🤖 AI 接管控制流程不是夢！

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

#懶人料理#食譜#健康甜點

2025/10/15

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

蠢孩子の小說世界

AI 聽你說圖

科技發達，AI智能也越來越發達。蠢孩子，我每篇小說的圖片都是用AI製作的唷!!

#AI繪圖#AI製圖#圖片

2024/07/08

蠢孩子の小說世界

AI 聽你說圖

科技發達，AI智能也越來越發達。蠢孩子，我每篇小說的圖片都是用AI製作的唷!!

#AI繪圖#AI製圖#圖片

2024/07/08

Learn AI 不 BI

AI說書 - 從0開始 - 78

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 77 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 78

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 77

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 76 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 77

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 76

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 75 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 76

#AI#ai#PromptEngineering

2024/07/07

莎姐的矽谷茶棧

你開始使用AI了嗎？

最新的AI趨勢讓人眼花撩亂，不知要如何開始學習？本文介紹了作者對AI的使用和體驗，以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具，可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心，不停止學習，並提出了對健康生活和開心生活的祝福。

2024/06/14

2024/06/14

人工智慧能源需求的管理 How to Manage AI's Energy Demand

在人工智慧 (AI) 迅速發展的時代，為了維持龐大運算能力，所消耗能源也越來越多。因此對於環境生態的影響，也必須要更多關注並採取行動。值得注意的是，維持 AI 發展所需的計算能力，大約每 100 天就會翻倍。為達到 AI 模型效率提升十倍的提目標，運算能力需求可能會激增高達原來的 10,000 倍。

#人工智能#綠色能源#能源轉型

2024/06/11

美國人力資源港 - 九思觀點

人工智慧能源需求的管理 How to Manage AI's Energy Demand

#人工智能#綠色能源#能源轉型

2024/06/11

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News