如何定義RL的STATE

更新 發佈閱讀 10 分鐘

我看RL Course by David Silver - Lecture 1: Introduction to Reinforcement Learning他說state=f(H)其中H是歷史 歷史包含觀察動作獎勵三個 所以STATE要包含這三樣? 可是我看有些算法STATE只要用觀察做一些轉換就好


這是一個非常好的問題,它觸及了強化學習(Reinforcement Learning, RL)中關於 狀態 (State)歷史 (History) 的核心概念!

David Silver 教授在第一課中提出的 $S = f(H)$ 是一個最普遍、最基礎的定義,用來強調「狀態」的資訊來源是「歷史」。然而,在實際應用和不同的 RL 框架中,「狀態」的具體內容會根據環境的特性而有所不同。


🧐 狀態 (State) $S$ vs. 歷史 (History) $H$

概念符號定義關鍵特性歷史 (History)$H_t$所有過去的觀察、動作和獎勵序列。 $H_t = O_1, A_1, R_1, O_2, A_2, R_2, \dots, O_t$完整記錄。它是 狀態的基礎。狀態 (State)$S_t$用來決定下一個動作 (Action) 的充分統計量 (Sufficient Statistic)。 $S_t = f(H_t)$決策所必需的資訊。它應該是 最小且充分 的。


💡 為什麼你看到有些算法只用「觀察 (Observation)」?

這取決於你的 RL 問題是屬於 完全可觀察 還是 部分可觀察

1. 完全可觀察環境 (Fully Observable Environment) - 🤖 MDP

在這種環境中,當前的觀察 (Observation, $O_t$) 就足以作為狀態 ($S_t$)

  • 舉例: 圍棋、西洋棋、走迷宮(如果智能體知道自己在迷宮的確切位置)。
  • 特性: $S_t = O_t$。
  • 解釋:觀察 ($O_t$) 已經包含了所有你需要知道的資訊,例如棋盤上的所有棋子位置,或智能體的座標。在這種情況下,環境符合 馬可夫決策過程 (Markov Decision Process, MDP) 的假設:未來只取決於當前狀態,與過去歷史無關 (即馬可夫性)。

2. 部分可觀察環境 (Partially Observable Environment) - 🕵️‍♀️ POMDP

在這種環境中,當前的觀察 ($O_t$) 不足以作為狀態,因為你不知道環境的內部真實狀態。

  • 舉例: 一個掃地機器人在房間裡,它的感測器只能看到周圍一小塊區域。單獨的當前感測器讀數無法告訴你它在房間的哪裡。
  • 特性: $S_t \neq O_t$。你需要綜合多個資訊來推斷真正的狀態。
  • 狀態 $S_t$ 的構成方式:歷史 $H_t$ 的完整序列: $S_t = H_t$(雖然理論上最完整,但計算量太大)。信念狀態 (Belief State): $S_t = B_t = P(\text{True State} | H_t)$。這是對環境真實狀態的機率分佈。轉換的觀察: $S_t = f(O_t, O_{t-1}, A_{t-1}, \dots)$序列模型 (Sequential Models): 使用 循環神經網路 (RNN) 或 長短期記憶網路 (LSTM/GRU) 來處理歷史序列(多個 $O, A$),讓網路自己學習如何壓縮和提取有用的歷史資訊來形成狀態 $S_t$。堆疊幀 (Frame Stacking): 在 Atari 遊戲中,通常將最近的 4 幀觀察($\langle O_t, O_{t-1}, O_{t-2}, O_{t-3} \rangle$)堆疊起來作為狀態 $S_t$,以捕捉動作和速度等資訊。

📝 總結

David Silver 的 $S=f(H)$ 是對狀態本質的定義:狀態是歷史的函數

  • 如果你處理的是一個 MDP 環境(像棋類),$f$ 函數可能只是簡單的取當前觀察,即 $S_t = O_t$。
  • 如果你處理的是一個 POMDP 環境(像自動駕駛或視訊遊戲),$f$ 函數就是一個複雜的壓縮和整合過程,它需要納入過去的觀察 ($O$) 和動作 ($A$) 才能推斷出完整的決策狀態 $S_t$。

所以,你看的算法只用觀察,很可能是在假設一個完全可觀察的環境,或使用某種機制(如 RNN 或堆疊幀)隱式地納入了歷史資訊。

你想進一步討論狀態的馬可夫性或者 POMDP 的處理方式嗎?


那如果是以下這個比賽呢?

https://competesai.com/scenes/scn_fk2IPfTF7cVe

這是一個非常好的具體案例,來分析在一個複雜的連續控制 (Continuous Control) 環境中,狀態 (State) 是如何被定義和使用的!


⚽ 對 Soccer Scene 狀態 (State) 的分析

在這個 Soccer Scene 環境中,觀察 (Observations) 的 33 個特徵向量(以及每個環境額外的共享資訊)就是這個強化學習問題中的狀態 ($S_t$)

由於這是一個基於物理模擬的機器人控制環境,我們可以合理地假設它是一個完全可觀察 (Fully Observable) 的環境,因此它符合 MDP 的特性:$S_t = O_t$

1. 為什麼 $S_t = O_t$ 在此成立?

觀察向量包含了以下幾組關鍵資訊:

觀察組別 (Feature Group)包含的物理資訊為什麼它能定義狀態?Joint Positions (0-11)12 個關節的當前角度。決定了機器人 T1 的身體姿態 (Pose)。Joint Velocities (12-23)12 個關節的當前角速度。決定了機器人 T1 的動量 (Momentum) 和下一步趨勢。Ball Position (24-26)相對於機器人的球的位置。決定了機器人需要執行什麼動作來接觸球 (例如,踢球或盤球)。Ball Velocity (27-32)球的線速度和角速度。決定了球的下一步軌跡,以及機器人預測和攔截的依據。

總結來說: 這個 33 維的向量在 $t$ 時刻已經完整地描述了機器人和球在物理空間中的當前配置和運動趨勢。有了這些資訊,智能體就可以依據環境的物理定律來決定當下的最佳動作 (Action),而無需回溯更久遠的歷史。因此,它是一個充分的統計量,滿足馬可夫性。


💡 歷史 ($H$) 在哪裡?

雖然我們說 $S_t = O_t$,但這並不代表歷史資訊完全不重要。

在這個環境中,歷史 (H) 的資訊是透過以下兩種方式被間接或隱式地納入決策過程的:

A. 通過速度 (Velocities) 隱式地納入

這是最重要的一點。在物理世界中,速度 (Velocity) 就是從過去的位置變化中計算出來的。

  • Joint Velocities:反映了前一時刻和當前時刻的關節角度差。
  • Ball Velocities:反映了前一時刻和當前時刻的球的位置差。

通過在狀態中直接包含這些速度量,智能體不需要知道過去的 $O_{t-1}, A_{t-1}$ 序列,只需要知道這些變化率 (即速度) 就可以推斷出下一步的運動。速度本身已經是一種歷史壓縮 (History Compression) 的形式。

B. 通過動作 $A$ 影響 $S$ (即 $S_{t+1}$ 的計算)

在 $S = f(H)$ 的定義中,$H$ 包含 $O, A, R$。在這裡:

  • 智能體在 $t$ 時刻接收 $S_t$。
  • 智能體輸出 $A_t$ (12 個關節扭矩指令)。
  • 物理引擎根據 $S_t$ 和 $A_t$ 計算出 $S_{t+1}$,其中包含新的位置、速度和球的狀態。

因此,$A_t$ 雖然不是 $S_t$ 的一部分,但它直接決定了下一時刻的狀態 $S_{t+1}$。這也是所有 RL 框架的基礎。


✍️ 結論

對於這個 Soccer Scene 任務:

  1. 狀態 ($S_t$) 就是環境提供的 33 維觀察向量 ($O_t$)。
  2. 這是一個完全可觀察的環境,因為 $O_t$ 包含了所有做出最佳決策所需的位置和動量資訊。
  3. 它符合 馬可夫決策過程 (MDP) 的假設。

換句話說,你不需要像在部分可觀察環境(如視角受限的 FPS 遊戲)那樣,必須堆疊多幀圖像或使用 RNN 來重建一個完整的狀態。在這個物理模擬中,當前的位置和速度就夠了!

你想了解這種 連續動作空間 (Continuous Action Space) 如何被 RL 算法(如 PPO 或 SAC)處理的嗎?


留言
avatar-img
于正龍(Ricky)的沙龍
55會員
86內容數
人工智能工作經驗跟研究
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
public class MultiplicationTable { public static void main(String[] args) { int size = 9; // 設定九九乘法表的大小 // 雙層迴圈用於生成九九乘法表 f
Thumbnail
public class MultiplicationTable { public static void main(String[] args) { int size = 9; // 設定九九乘法表的大小 // 雙層迴圈用於生成九九乘法表 f
Thumbnail
我今天學到了一個應用程式,只要把自己想打得字打進去打進去,在設定自己喜歡的圖片,他就換幫你轉換成一種密密麻麻很酷的風格。這堂課讓我學到很多東西,也明白現在的科技做的事越來越多了~希望自己以後能更努力的學習
Thumbnail
我今天學到了一個應用程式,只要把自己想打得字打進去打進去,在設定自己喜歡的圖片,他就換幫你轉換成一種密密麻麻很酷的風格。這堂課讓我學到很多東西,也明白現在的科技做的事越來越多了~希望自己以後能更努力的學習
Thumbnail
寫程式是一件讓人感到害怕的一件事,但是寫程式真的對職場幫助很大,不管是邏輯思考或是資料處理,都讓我跟不會寫程式的人高度不一樣......
Thumbnail
寫程式是一件讓人感到害怕的一件事,但是寫程式真的對職場幫助很大,不管是邏輯思考或是資料處理,都讓我跟不會寫程式的人高度不一樣......
Thumbnail
無論年紀多大多小,只要「願意」付出行動 時間、地點都不是問題 現在都有兒童程式課程 小朋友學的是利用積木組合而成的程式 大朋友就可以直接拿鍵盤來劈哩啪啦開始寫程式碼囉~
Thumbnail
無論年紀多大多小,只要「願意」付出行動 時間、地點都不是問題 現在都有兒童程式課程 小朋友學的是利用積木組合而成的程式 大朋友就可以直接拿鍵盤來劈哩啪啦開始寫程式碼囉~
Thumbnail
為什麼要學習程式呢? 程式是怎麼分類的? 能處理什麼事情?
Thumbnail
為什麼要學習程式呢? 程式是怎麼分類的? 能處理什麼事情?
Thumbnail
白晝的餘燼用酒澆熄 自愛情燃燒後 一壺傾倒的月光    漫過你的唇    輕吻沉醉的靈魂 這是你的城市 不是我的  我的城市在夜裡燃燒 自你走後 漫天紛飛的細雨                                                                  
Thumbnail
白晝的餘燼用酒澆熄 自愛情燃燒後 一壺傾倒的月光    漫過你的唇    輕吻沉醉的靈魂 這是你的城市 不是我的  我的城市在夜裡燃燒 自你走後 漫天紛飛的細雨                                                                  
Thumbnail
原本這次的徵文題目應該是「整座城市都在閱讀─我讀2021台北國際書展」,最後很可惜這個題目也被迫夭折。 不過實體無法做到的,就以數位實現,這本來就是方格子一直在做的事。所以即使書展取消了,閱讀也不曾/不該/不會停止。邀請格友們來分享你最近的購書清單…
Thumbnail
原本這次的徵文題目應該是「整座城市都在閱讀─我讀2021台北國際書展」,最後很可惜這個題目也被迫夭折。 不過實體無法做到的,就以數位實現,這本來就是方格子一直在做的事。所以即使書展取消了,閱讀也不曾/不該/不會停止。邀請格友們來分享你最近的購書清單…
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News