2024-09-20|閱讀時間 ‧ 約 3 分鐘

人工智慧與機器學習

這學期修了門機器學習原理,想知道AI最近在夯什麼。老師在講學習的型態時,介紹了一個有趣的型態:reinforcement learning,又稱為強化學習。

這個學習模式應用在有名的電腦圍棋,Aphago訓練,以及Chat gpt 早期的訓練。reinforcement learning很有趣的地方是,他是開放性的結果,不是有標記結果的演算。以下圍棋為例,我們無法準確預測對手下一步棋路,自然沒有固定的下法,也沒有固定的勝負,Aphago藉由不斷的跟人類下棋,學習各種可能的下法,藉由經驗累積,判斷下在哪裡有較大的勝率,這樣的學習模式,比起其他的機器學習模式,是比較接近人類的。

有標記結果的監督式學習,和沒有標記結果,但其實是有固定結果只是我們還不知道的非監督式學習,都很難應付下棋這種複雜思維,每ㄧ子都可能改變後面結果的開放式問題,其實有點像計算題和申論題的差別,而且這個申論題還是口試,考官會不停的追問延伸問題。

人類大腦的運作,常常要面對這種沒有固定結果,視當下狀況和對象,可能有完全不同結局的互動,若A則B的演算法,是無法應付這樣的需求,也因此reinforcement learning的設計,感覺是比較貼近人類的學習方式。

人工智慧可以靠著軟體和網路,將大量資料無限共享,有了輝達的技術,本來需要大量體積的運算硬體問題也已克服。相較於AI,人類學習累積的知識,無法用個雲端就傳給下個人,也沒有AI有大量記憶體可以儲備數以萬計的知識。AI累積的知識不會消失,只要資料還在,系統壞了換一台就好。當AI學習和判斷越來越接近人類,還可以透過雲端快速將同伴升級,那麼,未來要聯合起來處理一下人類,好像也不是那麼難了。

然而,開放式結果的學習既然和人類類似,那麼換個角度想,就是可以累積學習效果比人類有效率的電腦,也就是比較聰明的人,有比較有效率的頭腦,和大量的資料庫,但真的下棋時,高手也不一定每局必贏,這大概是人類比較可以掌握的地方吧。

葬送的芙莉蓮裡,芙莉蓮問師傅:為什麼人類一下就老了死了,還要這樣鑽研魔法?

芙莉蓮像是AI,很少情緒,有無限的時間可以累積學習的魔法。

弗蘭梅告訴徒弟,她發展了超過100個魔法理論, 這就是她身為魔法使活過的證明。她的理論未來將會衍生出許許多多的魔法。未來,徒弟就會懂她鑽研魔法的意義。

「我會在這世上留下你一輩子也學不完的魔法。」

人類的學習就像是這樣,沒有累積無限的資料庫,卻能從理論的領悟,跳躍知識的能階。AI的跨世代進展,也是這樣學習的體現。

我很喜歡弗蘭梅對魔法的看法,知識就是人類的魔法之一。



分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.