強化學習 (Reinforcement Learning) 上一回我們已經稍微講過了監督式學習、無監督式學習,這一次我們要來討論常見的第三種AI學習模式,強化學習 (Reinforcement Learning)。 關於AI強化學習,它是一種透過不斷反復練習、犯錯的方式來在一種環境之中選擇處最佳選擇的行為模式。 而對於這種學習方式,它與前面我們所探討的其餘學習模組不同之處在於它的反饋。 我們可以舉一個非常簡單的例子在這個強化學習模型之中。 在現實之中的自動駕駛:當一個AI汽車駕駛學習如何在高速公路上行駛能夠避免發生交通意外,如在AI做出了安全的選擇,那麼它就會得到高分數的回饋,反之如果在AI選擇了不安全的駕駛行為,那麼它獲得的就是低分數的回饋。 其中,在強化學習之中,它其實是由三個主要部分組成,藉由拆分這三個部分能夠讓我們更好了解這個學習模組。 第一種:Agent。 Agent代表AI模型,它能夠根據周圍環境狀態的不同而做出行為。 第二種:Environment。 Environment代表著Agent能夠解除到的所有因素,如狀態、事件、報酬。 三者分別指的是當前的環境狀態(遊戲的畫面),和環境之中發生的事件(遊戲裡頭的敵人),還有給予Agent的回饋(遊戲中的分數)。 第三種:Reward。 Reawrd會給予Agent一個合理的報酬,這個報酬取決於Agent做出來的判斷是否正確或是安全。 基於這三種主要部分組合而來的強化學習,AI會不停的做出行為,並且在環境之中得到各種回饋,並且還根據自身所得的回饋來調整自己的行為,直到能夠得到最大的回饋、分數為止,最終打到贏得目標的條件。