【AI 人工智慧】強化學習(Reinforcement learning)

閱讀時間約 1 分鐘
強化學習
強化學習(Reinforcement learning)是機器學習的一個分支,它被廣泛應用於博奕、控制學、金融等多個領域,其概念主要是藉由讓智能體與環境做互動,並在過程中給予正負向的回饋來讓電腦不斷修正行為,進而學會做動態之決策。
舉個稍微生活化一點的例子吧!假設有一個學生(智能體)上課非常的吵鬧,這時候老師(環境)可能就會懲罰他並要求他下次改進行為(負向回饋),而學生也因為受到老師的責罰而未來會避免類似的事情再發生,反過來說,如果學生考試考高分,老師則給予他極大的獎勵(正向回饋),那學生也因此知道原來在學校裡就是要乖乖唸書考高分阿!藉由這樣一連串的正/負向的回饋,最終學生的行為就會漸漸的朝著老師所設定的方向去進行!
強化學習最著名的經典案例莫過於Google DeepMind公司於2014年所開發的下圍棋軟體AlphaGo了,AlphaGo結合了深度學習以及強化學習兩個機器學習的方法,使得電腦可以在下圍棋方面戰勝人類的棋王,這件事情到底有多難呢?根據計算,相比於其他棋類比賽,圍棋是被公認為難度最高棋類比賽,可見要開發出如AlphaGo這樣的圍棋軟體真的是不容易阿!
此外,由於AlphaGo在學習的過程中是沒有老師指導的,所以在下圍棋的過程中,也下出了人類未曾發現的下棋方法,這震憾了整個下圍棋的領域,或許未來我們可能還需要反過來像電腦學習討教吧!
總之,強化學習真的是一個備受關注的領域,或許哪天我們能賦予身旁的所有東西足夠的智慧,來讓人類的生活愈來愈便利阿!
*本文由知名AI講師-Isaac Lee 李厚均所撰寫 文章轉載自我們共同經營的粉絲頁-小李談數智https://www.facebook.com/isaac60103
更多圖解內容可以到 耀西圖像視覺化教室看看https://www.facebook.com/YoshiGraphics
即將進入廣告,捲動後可繼續閱讀
為什麼會看到廣告
avatar-img
11會員
33內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Liao Yoshi的沙龍 的其他內容
在機器學習裡面,為了要追求更好的表現,我們除了要選出最適當的演算法來應對不同場景外,同時,在將原始資料蒐集好後,我們該如何從中萃取出重要且有用的資訊,是非常重要的一件事情,這就是所謂的”特徵工程”,今天我們就來針對這個主題談談吧...
隨著FinTech熱潮興起,人工智慧如何應用在金融領域往往是許多人關注的焦點之一。由於金融業的資料量非常的大,使得能導入的應用也非常多元,今天我們來介紹一個AI在金融領域之應用:機器人理財。
儘管大家對於人工智慧各種面向有著非常多不同的看法,但若說到人工智慧實力的劃分,一般我們常把它分成三個等級,狹義人工智慧、廣義人工智、以及超級人工智慧...
儘管深度學習這陣子非常的成功,效果也非常的好, 但每次提到它美中不足的地方時,可解釋性總是被拿來評論一番。今天,我們來針對模型的”可解釋性”這樣一個議題做深入的討論。所謂的「可解釋性」,就是當人工智慧演算法做決策的時候,我們是否能夠清楚了解為什麼電腦會做這樣一個決策以及判斷...
在雙11節慶,大家是否已經準備要好好血拼一番了呢?在這特別的日子裡,不知道有沒有人注意到,為了讓消費者有更好的體驗,不少廠商、送貨人員、工程師等可說是忙得不可開交呢!有鑑於此,電商龍頭阿里巴巴便想要去找尋增加每個環節效率的方法,而當中最著名的例子之一,莫過於他們將AI的技術...
今天我們來談談什麼叫作「邊緣運算」(Edge computing)? 在傳統情況下,我們常將各式各樣的感應器佈在不同應用中並隨時把所有的資料上傳至雲端伺服器做處理。然而,網路的傳輸需要時間,所以在許多被要求低延遲的應用當中,這樣的架構不一定適合...
在機器學習裡面,為了要追求更好的表現,我們除了要選出最適當的演算法來應對不同場景外,同時,在將原始資料蒐集好後,我們該如何從中萃取出重要且有用的資訊,是非常重要的一件事情,這就是所謂的”特徵工程”,今天我們就來針對這個主題談談吧...
隨著FinTech熱潮興起,人工智慧如何應用在金融領域往往是許多人關注的焦點之一。由於金融業的資料量非常的大,使得能導入的應用也非常多元,今天我們來介紹一個AI在金融領域之應用:機器人理財。
儘管大家對於人工智慧各種面向有著非常多不同的看法,但若說到人工智慧實力的劃分,一般我們常把它分成三個等級,狹義人工智慧、廣義人工智、以及超級人工智慧...
儘管深度學習這陣子非常的成功,效果也非常的好, 但每次提到它美中不足的地方時,可解釋性總是被拿來評論一番。今天,我們來針對模型的”可解釋性”這樣一個議題做深入的討論。所謂的「可解釋性」,就是當人工智慧演算法做決策的時候,我們是否能夠清楚了解為什麼電腦會做這樣一個決策以及判斷...
在雙11節慶,大家是否已經準備要好好血拼一番了呢?在這特別的日子裡,不知道有沒有人注意到,為了讓消費者有更好的體驗,不少廠商、送貨人員、工程師等可說是忙得不可開交呢!有鑑於此,電商龍頭阿里巴巴便想要去找尋增加每個環節效率的方法,而當中最著名的例子之一,莫過於他們將AI的技術...
今天我們來談談什麼叫作「邊緣運算」(Edge computing)? 在傳統情況下,我們常將各式各樣的感應器佈在不同應用中並隨時把所有的資料上傳至雲端伺服器做處理。然而,網路的傳輸需要時間,所以在許多被要求低延遲的應用當中,這樣的架構不一定適合...
你可能也想看
Google News 追蹤
Thumbnail
徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
這學期修了門機器學習原理,想知道AI最近在夯什麼。老師在講學習的型態時,介紹了一個有趣的型態:reinforcement learning,又稱為強化學習。 這個學習模式應用在有名的電腦圍棋,Aphago訓練,以及Chat gpt 早期的訓練。reinforcement learning很有趣的地
Thumbnail
均一AI實驗室研發了「AI狐貍貓」和「Jutor英語家教」等教育AI產品,並在暑假舉辦了AI研習課程,包括體驗Rai學習嚮導、製作小工具及客製化chatbot。課程中,老師們學習如何創建AI工具,並獲得了積極的回饋。這次活動展示了AI如何提升教學效果,並鼓勵教師們探索更創新的教學方法。
Thumbnail
參加者探討AI在教育領域的廣泛應用及其面臨的挑戰,強調如何與AI共存並提升自我能力,李明峰的分享啟發參與者自我潛力的認識,並在AI圖像生成遊戲環節中,助教幫助學生理解生成過程,展現AI在教學上的無限可能性,這篇文章探討了有效的教學方式和學習者的不同經驗,鼓勵更多人關注生成式AI的應用。
Thumbnail
學習生成式AI,不僅僅是掌握幾個工具,而是從全方位了解AI的發展範疇及其潛力。我經常在企業教授AI課程時,會遇到HR詢問:某些工具用不上,可以不教嗎?當然可以,但如果同仁不了解生成式AI在「數位內容」上的廣泛應用,又如何掌握大語言模型的發展邊界?
Thumbnail
AlphaGo 的開發,讓人工智慧在圍棋的研究讓更多人被看到,也看到它成熟的結果。現代的圍棋教學和棋手訓練,也或多或少會借鏡各類的AI系統做學習。然而,教學的歷程,過度追求AI的棋步和棋法,有時會讓小朋友難以理解。一步登天的方式,有時反而會讓同學走得更坎坷。
前言 最近開始讀《強化式學習:打造最強 AlphaZero 通用演算法》這本書,AlphaZero是AlphaGo的改良升級版,而AlphaGo打敗了世界頂尖圍棋棋士,這本書是在介紹AlphaZero使用的技術和演算法。這篇文章是筆記我在閱讀此書介紹"強化式學習"的篇幅時,遇到不懂的名詞解釋,上網
最近接了一個AI專案,客戶要求以AI方式實現節能功能,以下提供我的專案思考軌跡: 面對這樣的技術,我第一個想到使用Reinforcement Learning技術,然而這裡我思考一件事,這個專案是要幫助客戶賺錢的,在沒有Digital Twin的搭配之下,貿然使用Reinforcement L
我們知道AI的作法可以分為Supervised Learning、Unsupervised Learning、Reinforcement Learning,整題區分如下圖: 圖片出處:https://www.superannotate.com/blog/supervised-learning-an
機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
Thumbnail
0. 剛發現台灣人工智慧學校侯秘書長是強者我同學夫人,他在聯發科搞AI,買股票找誰大家應該知道。 1. 推動AI融入課程(尤其在人社領域)最大的困難和挑戰在於心態mindset的轉變,要由‘人機(二元)對立’換成‘人機協作’。 2. 絕大部分教學現場的問題來自於1.,比如質疑AI會取代人、著
Thumbnail
徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
這學期修了門機器學習原理,想知道AI最近在夯什麼。老師在講學習的型態時,介紹了一個有趣的型態:reinforcement learning,又稱為強化學習。 這個學習模式應用在有名的電腦圍棋,Aphago訓練,以及Chat gpt 早期的訓練。reinforcement learning很有趣的地
Thumbnail
均一AI實驗室研發了「AI狐貍貓」和「Jutor英語家教」等教育AI產品,並在暑假舉辦了AI研習課程,包括體驗Rai學習嚮導、製作小工具及客製化chatbot。課程中,老師們學習如何創建AI工具,並獲得了積極的回饋。這次活動展示了AI如何提升教學效果,並鼓勵教師們探索更創新的教學方法。
Thumbnail
參加者探討AI在教育領域的廣泛應用及其面臨的挑戰,強調如何與AI共存並提升自我能力,李明峰的分享啟發參與者自我潛力的認識,並在AI圖像生成遊戲環節中,助教幫助學生理解生成過程,展現AI在教學上的無限可能性,這篇文章探討了有效的教學方式和學習者的不同經驗,鼓勵更多人關注生成式AI的應用。
Thumbnail
學習生成式AI,不僅僅是掌握幾個工具,而是從全方位了解AI的發展範疇及其潛力。我經常在企業教授AI課程時,會遇到HR詢問:某些工具用不上,可以不教嗎?當然可以,但如果同仁不了解生成式AI在「數位內容」上的廣泛應用,又如何掌握大語言模型的發展邊界?
Thumbnail
AlphaGo 的開發,讓人工智慧在圍棋的研究讓更多人被看到,也看到它成熟的結果。現代的圍棋教學和棋手訓練,也或多或少會借鏡各類的AI系統做學習。然而,教學的歷程,過度追求AI的棋步和棋法,有時會讓小朋友難以理解。一步登天的方式,有時反而會讓同學走得更坎坷。
前言 最近開始讀《強化式學習:打造最強 AlphaZero 通用演算法》這本書,AlphaZero是AlphaGo的改良升級版,而AlphaGo打敗了世界頂尖圍棋棋士,這本書是在介紹AlphaZero使用的技術和演算法。這篇文章是筆記我在閱讀此書介紹"強化式學習"的篇幅時,遇到不懂的名詞解釋,上網
最近接了一個AI專案,客戶要求以AI方式實現節能功能,以下提供我的專案思考軌跡: 面對這樣的技術,我第一個想到使用Reinforcement Learning技術,然而這裡我思考一件事,這個專案是要幫助客戶賺錢的,在沒有Digital Twin的搭配之下,貿然使用Reinforcement L
我們知道AI的作法可以分為Supervised Learning、Unsupervised Learning、Reinforcement Learning,整題區分如下圖: 圖片出處:https://www.superannotate.com/blog/supervised-learning-an
機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
Thumbnail
0. 剛發現台灣人工智慧學校侯秘書長是強者我同學夫人,他在聯發科搞AI,買股票找誰大家應該知道。 1. 推動AI融入課程(尤其在人社領域)最大的困難和挑戰在於心態mindset的轉變,要由‘人機(二元)對立’換成‘人機協作’。 2. 絕大部分教學現場的問題來自於1.,比如質疑AI會取代人、著