如何定義RL的STATE

更新 發佈閱讀 10 分鐘

我看RL Course by David Silver - Lecture 1: Introduction to Reinforcement Learning他說state=f(H)其中H是歷史 歷史包含觀察動作獎勵三個 所以STATE要包含這三樣? 可是我看有些算法STATE只要用觀察做一些轉換就好


這是一個非常好的問題,它觸及了強化學習(Reinforcement Learning, RL)中關於 狀態 (State)歷史 (History) 的核心概念!

David Silver 教授在第一課中提出的 $S = f(H)$ 是一個最普遍、最基礎的定義,用來強調「狀態」的資訊來源是「歷史」。然而,在實際應用和不同的 RL 框架中,「狀態」的具體內容會根據環境的特性而有所不同。


🧐 狀態 (State) $S$ vs. 歷史 (History) $H$

概念符號定義關鍵特性歷史 (History)$H_t$所有過去的觀察、動作和獎勵序列。 $H_t = O_1, A_1, R_1, O_2, A_2, R_2, \dots, O_t$完整記錄。它是 狀態的基礎。狀態 (State)$S_t$用來決定下一個動作 (Action) 的充分統計量 (Sufficient Statistic)。 $S_t = f(H_t)$決策所必需的資訊。它應該是 最小且充分 的。


💡 為什麼你看到有些算法只用「觀察 (Observation)」?

這取決於你的 RL 問題是屬於 完全可觀察 還是 部分可觀察

1. 完全可觀察環境 (Fully Observable Environment) - 🤖 MDP

在這種環境中,當前的觀察 (Observation, $O_t$) 就足以作為狀態 ($S_t$)

  • 舉例: 圍棋、西洋棋、走迷宮(如果智能體知道自己在迷宮的確切位置)。
  • 特性: $S_t = O_t$。
  • 解釋:觀察 ($O_t$) 已經包含了所有你需要知道的資訊,例如棋盤上的所有棋子位置,或智能體的座標。在這種情況下,環境符合 馬可夫決策過程 (Markov Decision Process, MDP) 的假設:未來只取決於當前狀態,與過去歷史無關 (即馬可夫性)。

2. 部分可觀察環境 (Partially Observable Environment) - 🕵️‍♀️ POMDP

在這種環境中,當前的觀察 ($O_t$) 不足以作為狀態,因為你不知道環境的內部真實狀態。

  • 舉例: 一個掃地機器人在房間裡,它的感測器只能看到周圍一小塊區域。單獨的當前感測器讀數無法告訴你它在房間的哪裡。
  • 特性: $S_t \neq O_t$。你需要綜合多個資訊來推斷真正的狀態。
  • 狀態 $S_t$ 的構成方式:歷史 $H_t$ 的完整序列: $S_t = H_t$(雖然理論上最完整,但計算量太大)。信念狀態 (Belief State): $S_t = B_t = P(\text{True State} | H_t)$。這是對環境真實狀態的機率分佈。轉換的觀察: $S_t = f(O_t, O_{t-1}, A_{t-1}, \dots)$序列模型 (Sequential Models): 使用 循環神經網路 (RNN) 或 長短期記憶網路 (LSTM/GRU) 來處理歷史序列(多個 $O, A$),讓網路自己學習如何壓縮和提取有用的歷史資訊來形成狀態 $S_t$。堆疊幀 (Frame Stacking): 在 Atari 遊戲中,通常將最近的 4 幀觀察($\langle O_t, O_{t-1}, O_{t-2}, O_{t-3} \rangle$)堆疊起來作為狀態 $S_t$,以捕捉動作和速度等資訊。

📝 總結

David Silver 的 $S=f(H)$ 是對狀態本質的定義:狀態是歷史的函數

  • 如果你處理的是一個 MDP 環境(像棋類),$f$ 函數可能只是簡單的取當前觀察,即 $S_t = O_t$。
  • 如果你處理的是一個 POMDP 環境(像自動駕駛或視訊遊戲),$f$ 函數就是一個複雜的壓縮和整合過程,它需要納入過去的觀察 ($O$) 和動作 ($A$) 才能推斷出完整的決策狀態 $S_t$。

所以,你看的算法只用觀察,很可能是在假設一個完全可觀察的環境,或使用某種機制(如 RNN 或堆疊幀)隱式地納入了歷史資訊。

你想進一步討論狀態的馬可夫性或者 POMDP 的處理方式嗎?


那如果是以下這個比賽呢?

https://competesai.com/scenes/scn_fk2IPfTF7cVe

這是一個非常好的具體案例,來分析在一個複雜的連續控制 (Continuous Control) 環境中,狀態 (State) 是如何被定義和使用的!


⚽ 對 Soccer Scene 狀態 (State) 的分析

在這個 Soccer Scene 環境中,觀察 (Observations) 的 33 個特徵向量(以及每個環境額外的共享資訊)就是這個強化學習問題中的狀態 ($S_t$)

由於這是一個基於物理模擬的機器人控制環境,我們可以合理地假設它是一個完全可觀察 (Fully Observable) 的環境,因此它符合 MDP 的特性:$S_t = O_t$

1. 為什麼 $S_t = O_t$ 在此成立?

觀察向量包含了以下幾組關鍵資訊:

觀察組別 (Feature Group)包含的物理資訊為什麼它能定義狀態?Joint Positions (0-11)12 個關節的當前角度。決定了機器人 T1 的身體姿態 (Pose)。Joint Velocities (12-23)12 個關節的當前角速度。決定了機器人 T1 的動量 (Momentum) 和下一步趨勢。Ball Position (24-26)相對於機器人的球的位置。決定了機器人需要執行什麼動作來接觸球 (例如,踢球或盤球)。Ball Velocity (27-32)球的線速度和角速度。決定了球的下一步軌跡,以及機器人預測和攔截的依據。

總結來說: 這個 33 維的向量在 $t$ 時刻已經完整地描述了機器人和球在物理空間中的當前配置和運動趨勢。有了這些資訊,智能體就可以依據環境的物理定律來決定當下的最佳動作 (Action),而無需回溯更久遠的歷史。因此,它是一個充分的統計量,滿足馬可夫性。


💡 歷史 ($H$) 在哪裡?

雖然我們說 $S_t = O_t$,但這並不代表歷史資訊完全不重要。

在這個環境中,歷史 (H) 的資訊是透過以下兩種方式被間接或隱式地納入決策過程的:

A. 通過速度 (Velocities) 隱式地納入

這是最重要的一點。在物理世界中,速度 (Velocity) 就是從過去的位置變化中計算出來的。

  • Joint Velocities:反映了前一時刻和當前時刻的關節角度差。
  • Ball Velocities:反映了前一時刻和當前時刻的球的位置差。

通過在狀態中直接包含這些速度量,智能體不需要知道過去的 $O_{t-1}, A_{t-1}$ 序列,只需要知道這些變化率 (即速度) 就可以推斷出下一步的運動。速度本身已經是一種歷史壓縮 (History Compression) 的形式。

B. 通過動作 $A$ 影響 $S$ (即 $S_{t+1}$ 的計算)

在 $S = f(H)$ 的定義中,$H$ 包含 $O, A, R$。在這裡:

  • 智能體在 $t$ 時刻接收 $S_t$。
  • 智能體輸出 $A_t$ (12 個關節扭矩指令)。
  • 物理引擎根據 $S_t$ 和 $A_t$ 計算出 $S_{t+1}$,其中包含新的位置、速度和球的狀態。

因此,$A_t$ 雖然不是 $S_t$ 的一部分,但它直接決定了下一時刻的狀態 $S_{t+1}$。這也是所有 RL 框架的基礎。


✍️ 結論

對於這個 Soccer Scene 任務:

  1. 狀態 ($S_t$) 就是環境提供的 33 維觀察向量 ($O_t$)。
  2. 這是一個完全可觀察的環境,因為 $O_t$ 包含了所有做出最佳決策所需的位置和動量資訊。
  3. 它符合 馬可夫決策過程 (MDP) 的假設。

換句話說,你不需要像在部分可觀察環境(如視角受限的 FPS 遊戲)那樣,必須堆疊多幀圖像或使用 RNN 來重建一個完整的狀態。在這個物理模擬中,當前的位置和速度就夠了!

你想了解這種 連續動作空間 (Continuous Action Space) 如何被 RL 算法(如 PPO 或 SAC)處理的嗎?


留言
avatar-img
留言分享你的想法!
avatar-img
于正龍(Ricky)的沙龍
54會員
86內容數
人工智能工作經驗跟研究
你可能也想看
Thumbnail
不是每個人都適合自己操盤,懂得利用「專業」,才是績效拉開差距的開始
Thumbnail
不是每個人都適合自己操盤,懂得利用「專業」,才是績效拉開差距的開始
Thumbnail
生產力爆發帶來的過剩,會讓過去的「還可以啦」成為最低標準。市場需求對於出類拔萃、獨一無二的需求還是存在,但是對於那些價格高度敏感,或是只需要穩定、便宜、還可以啦的需求端來說,AI 正在迅速取代這部分的供給,中間長尾的服務提供者被 AI 替換。
Thumbnail
生產力爆發帶來的過剩,會讓過去的「還可以啦」成為最低標準。市場需求對於出類拔萃、獨一無二的需求還是存在,但是對於那些價格高度敏感,或是只需要穩定、便宜、還可以啦的需求端來說,AI 正在迅速取代這部分的供給,中間長尾的服務提供者被 AI 替換。
Thumbnail
今年在 Google I/O 有幸看到 Hassabis 本人幾秒,DeepMind 和共同創辦人 Demis Hassabis 的這個題目,也一直都在待寫清單中。 前陣子,在介紹 Founders Fund 時,發現 Demis Hassabis 當初在說服 Peter Thiel 投資 Dee
Thumbnail
今年在 Google I/O 有幸看到 Hassabis 本人幾秒,DeepMind 和共同創辦人 Demis Hassabis 的這個題目,也一直都在待寫清單中。 前陣子,在介紹 Founders Fund 時,發現 Demis Hassabis 當初在說服 Peter Thiel 投資 Dee
Thumbnail
年末總有一種莫名的魔力,讓人特別容易感到孤單。 聖誕節、跨年、緊接著農曆新年……滑開社群,不是甜蜜放閃,就是一群人早早訂好跨年行程。 明明日子算得上順遂,工作穩定無憂,生活也按部就班地往前走着,可總在萬籟俱寂的夜晚,獨自對着空蕩的房間時,心底會悄悄冒出一個念頭:今年,是不是可以不一樣?不再獨自抵
Thumbnail
年末總有一種莫名的魔力,讓人特別容易感到孤單。 聖誕節、跨年、緊接著農曆新年……滑開社群,不是甜蜜放閃,就是一群人早早訂好跨年行程。 明明日子算得上順遂,工作穩定無憂,生活也按部就班地往前走着,可總在萬籟俱寂的夜晚,獨自對着空蕩的房間時,心底會悄悄冒出一個念頭:今年,是不是可以不一樣?不再獨自抵
Thumbnail
public class MultiplicationTable { public static void main(String[] args) { int size = 9; // 設定九九乘法表的大小 // 雙層迴圈用於生成九九乘法表 f
Thumbnail
public class MultiplicationTable { public static void main(String[] args) { int size = 9; // 設定九九乘法表的大小 // 雙層迴圈用於生成九九乘法表 f
Thumbnail
我今天學到了一個應用程式,只要把自己想打得字打進去打進去,在設定自己喜歡的圖片,他就換幫你轉換成一種密密麻麻很酷的風格。這堂課讓我學到很多東西,也明白現在的科技做的事越來越多了~希望自己以後能更努力的學習
Thumbnail
我今天學到了一個應用程式,只要把自己想打得字打進去打進去,在設定自己喜歡的圖片,他就換幫你轉換成一種密密麻麻很酷的風格。這堂課讓我學到很多東西,也明白現在的科技做的事越來越多了~希望自己以後能更努力的學習
Thumbnail
寫程式是一件讓人感到害怕的一件事,但是寫程式真的對職場幫助很大,不管是邏輯思考或是資料處理,都讓我跟不會寫程式的人高度不一樣......
Thumbnail
寫程式是一件讓人感到害怕的一件事,但是寫程式真的對職場幫助很大,不管是邏輯思考或是資料處理,都讓我跟不會寫程式的人高度不一樣......
Thumbnail
無論年紀多大多小,只要「願意」付出行動 時間、地點都不是問題 現在都有兒童程式課程 小朋友學的是利用積木組合而成的程式 大朋友就可以直接拿鍵盤來劈哩啪啦開始寫程式碼囉~
Thumbnail
無論年紀多大多小,只要「願意」付出行動 時間、地點都不是問題 現在都有兒童程式課程 小朋友學的是利用積木組合而成的程式 大朋友就可以直接拿鍵盤來劈哩啪啦開始寫程式碼囉~
Thumbnail
為什麼要學習程式呢? 程式是怎麼分類的? 能處理什麼事情?
Thumbnail
為什麼要學習程式呢? 程式是怎麼分類的? 能處理什麼事情?
Thumbnail
白晝的餘燼用酒澆熄 自愛情燃燒後 一壺傾倒的月光    漫過你的唇    輕吻沉醉的靈魂 這是你的城市 不是我的  我的城市在夜裡燃燒 自你走後 漫天紛飛的細雨                                                                  
Thumbnail
白晝的餘燼用酒澆熄 自愛情燃燒後 一壺傾倒的月光    漫過你的唇    輕吻沉醉的靈魂 這是你的城市 不是我的  我的城市在夜裡燃燒 自你走後 漫天紛飛的細雨                                                                  
Thumbnail
原本這次的徵文題目應該是「整座城市都在閱讀─我讀2021台北國際書展」,最後很可惜這個題目也被迫夭折。 不過實體無法做到的,就以數位實現,這本來就是方格子一直在做的事。所以即使書展取消了,閱讀也不曾/不該/不會停止。邀請格友們來分享你最近的購書清單…
Thumbnail
原本這次的徵文題目應該是「整座城市都在閱讀─我讀2021台北國際書展」,最後很可惜這個題目也被迫夭折。 不過實體無法做到的,就以數位實現,這本來就是方格子一直在做的事。所以即使書展取消了,閱讀也不曾/不該/不會停止。邀請格友們來分享你最近的購書清單…
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News