AI時代系列(3) 機器學習三部曲: 📘 第三部:《強化學習 —— AI 的決策與進化》
85/100 第九週:📌 強化學習應用實戰
85.工業自動化決策流程 🤖 AI 接管控制流程不是夢!
________________________________________
📍 單元導言
過去,工業控制依賴 PLC(可程式控制器)、PID 控制與硬體設計邏輯;但隨著智慧製造的興起,越來越多企業導入強化學習(Reinforcement Learning, RL)進行流程決策控制,例如:調整機台參數、製程最佳化、異常預警等。AI 不再只是輔助,而是進入「直接決策核心」的階段。
________________________________________
⚙️ 一、工業決策控制的典型流程
階段 說明 可應用 AI 方法
資料感測 感測器收集壓力、溫度、轉速等數據 IoT, Edge AI, 時序資料分析
狀態評估 預估當前設備狀態、是否需調整製程 強化學習 + 時序預測
決策行動 決定轉速、壓力、輸入參數 RL 動作策略選擇(如 PPO)
效果回饋 檢視產品品質、能耗、報酬 根據回報進行策略修正
________________________________________
🧠 二、為何用強化學習?
傳統控制 強化學習控制
固定規則、難以調整 可隨環境變化自我優化
無法處理延遲回饋 可透過 Discounted Reward 處理延遲報酬
無法面對未知狀況 RL 可試錯學習,具備探索與適應能力
________________________________________
🧪 三、簡易工業 RL 模擬:控制加熱系統溫度
📘 問題說明
設計一個 RL agent,自動控制工廠加熱爐的溫度維持在 70°C,避免過熱與過冷。
🎯 模型設計
元件 說明
狀態 S 當前溫度(離散範圍 0~100)
行動 A 增加溫度(+1)、減少(-1)、不動
獎勵 R 距離 70°C 越近,獎勵越高;超過 10 度給予懲罰
________________________________________
🧾 Python 實作(Q-Learning)
python
import numpy as np
import random
# 環境參數
target_temp = 70
temp_range = list(range(0, 101)) # 0~100°C
actions = [-1, 0, 1] # 減溫、維持、加溫
# 初始化 Q 表
q_table = {temp: {a: 0 for a in actions} for temp in temp_range}
# Q-Learning 超參數
alpha = 0.1
gamma = 0.9
epsilon = 0.2
# 訓練迴圈
for episode in range(1000):
temp = random.randint(20, 90) # 初始溫度
for _ in range(100): # 每輪最多100步
if random.uniform(0, 1) < epsilon:
action = random.choice(actions)
else:
action = max(q_table[temp], key=q_table[temp].get)
next_temp = max(0, min(100, temp + action))
# 設定獎勵
if abs(next_temp - target_temp) <= 2:
reward = 10
elif abs(next_temp - target_temp) <= 5:
reward = 5
elif abs(next_temp - target_temp) <= 10:
reward = -1
else:
reward = -10
# 更新 Q 表
old_value = q_table[temp][action]
next_max = max(q_table[next_temp].values())
q_table[temp][action] = old_value + alpha * (reward + gamma * next_max - old_value)
temp = next_temp
強化學習應用範例:自動溫度控制 Q-Learning 模型
這段程式碼示範了如何利用 Q-Learning 來訓練一個簡單的自動溫度控制系統,讓系統學會如何將當前溫度穩定控制在目標值 70°C 附近。
環境設定
溫度狀態空間設為 0°C 到 100°C 的整數範圍。
行動空間有三種:-1(降溫)、0(維持)、+1(升溫),模擬加熱或降溫的基本行為。
每次訓練從隨機初始溫度(20°C~90°C)開始,模擬現實中的多樣起始狀態。
Q-表初始化
對每個溫度狀態建立 Q 值表,對應三個行動,每個初始 Q 值設為 0。
Q-Learning 透過學習,不斷修正各溫度-行動組合的 Q 值。
獎勵設計
若新溫度落在目標溫度 ±2°C 內,給予高額獎勵 +10。
落在 ±5°C 內,給中等獎勵 +5。
落在 ±10°C 內,小幅懲罰 -1。
超出 ±10°C 則重罰 -10。
透過這樣的獎勵設計,系統會學習快速將溫度穩定調整至理想範圍內。
學習策略
使用 ε-greedy 策略平衡探索與利用:
20% 機率隨機探索新行動;
80% 機率選擇目前 Q 值最高的行動。
經過 1000 回合的訓練後,Q 表會逐漸收斂出穩定控制溫度的策略。
________________________________________
📈 測試學習成果
python
temp = 50
path = [temp]
for _ in range(30):
action = max(q_table[temp], key=q_table[temp].get)
temp = max(0, min(100, temp + action))
path.append(temp)
if abs(temp - target_temp) <= 2:
break
print("RL 控溫結果路徑:", path)
測試強化學習後的溫控策略
在完成訓練後,這段程式碼用來測試 Q-learning 學到的控制策略效果:
從溫度 50°C 出發,模擬實際控溫過程。
每一步都根據 Q 表中該狀態下 Q 值最高的行動,選擇最佳調整方向(升溫、降溫或維持)。
溫度限制在 0°C ~ 100°C 範圍內,避免不合理溫度出現。
最多模擬 30 步,若在任何時候溫度已接近目標值 70°C ±2°C 範圍內,則提前結束模擬。
最後印出整個控溫過程的溫度變化路徑 path,可以觀察智慧體是否學會有效且穩定地將溫度控制到目標區間內。
________________________________________
🏭 四、真實應用場景
應用產業 強化學習任務
半導體製程 控制蝕刻溫度與氣體流量以達最佳成品良率
化工反應控制 動態調整催化劑濃度與溫度,提升反應產率
自動裝配產線 決定機械手臂順序、節拍與互動邏輯,提高整體節奏效率
工廠節能優化 控制多機台啟動順序、冷氣系統負載,降低能源消耗
________________________________________
📚 小測驗題
1️⃣ RL 在工業流程中的最大優勢是什麼?
A. 降低人工成本
✅ B. 即時調整與延遲獎勵處理能力
C. 建立影像辨識模型
D. 改善雲端傳輸速度
解析:
強化學習特別擅長在不確定、連續控制的情境中學習逐步決策,尤其能處理「延遲回饋」的問題(例如控溫過程:當前行動影響未來溫度變化)。
A 雖然降低人工成本是應用結果之一,但非核心技術優勢;C、D 屬於其他 AI 領域任務。
________________________________________
2️⃣ 若系統狀態會受前幾步影響且需長期考量,建議使用哪類模型?
A. K-Means
✅ B. Actor-Critic with LSTM
C. Autoencoder
D. GAN
解析:
當系統具有時間序列性,前幾步的行動會累積影響未來狀態(如溫控、製程控制、機器運作歷史),LSTM 能捕捉時間依賴特徵,搭配 Actor-Critic 強化學習架構,適合處理具長期記憶性的決策任務。
A (K-Means) 屬於無監督聚類,C (Autoencoder) 用於特徵降維,D (GAN) 主要用於資料生成,皆不適合這類控制任務。
________________________________________
✨ 單元金句
「AI 不只是按鈕的執行器,而是學會了 何時 按、如何 控制,進化為真正的工業大腦。」
________________________________________
🧩 思考挑戰與反思任務
1️⃣ 為什麼工業控制場景特別適合用強化學習,而不像圖像辨識那樣主要用監督式學習?
👉 工業控制問題具有「持續決策、多步延遲效果、探索試錯」等特性,監督式學習難以提供即時決策建議,強化學習則能透過即時回饋不斷修正決策策略,隨環境變動持續自我優化。
2️⃣ 在真實工廠系統中,強化學習控制器部署會遇到哪些現場風險?你該如何降低這些風險?
👉 現場風險包含:訓練不足導致失控、感測異常誤判狀態、設備硬體限制未考慮進模型內。可透過:
先行模擬訓練;
強化安全約束;
限制控制上下限;
增加人機監控系統輔助;
漸進式部署逐步驗證。
3️⃣ 若要讓 RL 控制系統更具備「前瞻性」預測能力,你會導入什麼機制或模型?
👉 可加入 LSTM、Transformer 等時間序列預測模型,讓 RL 不僅回應當前狀態,更能預估未來趨勢,提早做出最佳調節行為,尤其適用於具累積效應或趨勢型製程。









