我們知道AI的作法可以分為Supervised Learning、Unsupervised Learning、Reinforcement Learning,整題區分如下圖:
圖片出處:https://www.superannotate.com/blog/supervised-learning-and-other-machine-learning-tasks
當中的Supervised Learning仰賴貼標資料,有在業界工作的朋友就知道,現實的資料是殘缺不全,要有貼標的資料進行Supervised Learning是一件很奢侈的事情。
然而不管在什麼領域,引入AI之後,似乎都會開始強調「自動化」,這需要幾個元件來組成:「觀察」、「執行」、「回饋」等等。
這和人類的學習很相似,面對一件未知的事情,當需要作出決策時,就需要「觀察現況」,再以此「做出動作」,最後也因為這動作而有「回饋」,不論是好還是壞,都為這動作做了一個「評分」,這些都是經驗,為往後面對相似情況而需要做決策時,提供「參考經驗」,這正是Reinforcement Learning的運作機制。
我自己處的產業,也開始著手進行AI化,不外乎開始強調「自動化」、「Closed Loop Optimization」等等,這些面向都和Reinforcement Learning脫離不了關係,這觀察和NVIDIA 黃仁勳受訪時的觀察差不多,詳細採訪內容可以參照:
https://hao.cnyes.com/post/74186?utm_source=cnyes&utm_medium=home&utm_campaign=postid
而Reinforcement Learning的重要性還可以從一個方面來看,那就是ChatGPT的訓練過程也使用到此技術,當中用到Reinforcement Learning from Human Feedback (RLHF),可以參照:
https://www.cc.ntu.edu.tw/chinese/spotlight/2023/a111029.asp
有鑒於此,本頻道也開始分享Reinforcement Learning相關技術,可以參照:
Chat GPT - 用RLHF做Fine Tuning
Trust Region Policy Optimization教學 - Part 1