作者:陳華夫
但讀者卻認為我略過很多重點,似乎掉入寫科普文章的宿命:太專業化,則艱澀難懂:太大眾化,講了等於沒講。可是我認為改革人類的「圍棋教學」太重要了,於是再次有系統的作說明。
同樣的,AlphaGo Zero開發者大衛.席爾瓦(David Silver)也說:「創造一個完全自學成才的系統,一直是強化學習中的一個開放式問題。我們一開始嘗試的方法,以及在文獻綜述部分提到的很多其他方法,都非常不穩定。我們做了很多實驗,最終發現,AlphaGo Zero的「演算法」是最有效率的,好像攻克了這個特定的問題。」(見:
最強AlphaGo是怎樣煉成的?剛剛,DeepMind團隊進行了全面解讀)
他倆在2017年有志一同的認為AlphaGo Zero是從零開始,可以在沒有人類指導的「自主訓練」到超過人類水準。但一年後(2018)紐約大學心理學和神經科學教授馬庫斯(Gary Marcus)卻寫了篇論文質疑「自主訓練」的說法,他認為雖然不需要人類圍棋知識,但AlphaGo Zero系統中的很多方面延續了在之前在圍棋程序上積累的研究,比如構建遊戲程序中常用的「蒙特卡洛樹搜索」,並非是通過「強化學習」從數據中學習的,它是在AlphaGo Zero系統中在學習開始就有的(Innate),這等於就說AlphaGo Zero並無法「空白」的「自主訓練」。
但李開復正確的說:「AlphaGo Zero只能在單一簡單領域應用,更不具有自主思考、設定目標、創意、自我意識。即便聰明如AlphaGo Zero,也是在人類給下目標,做好數位優化而已。」,而馬庫斯也認為AlphaGo Zero的「強化學習」和「蒙特卡洛樹搜索」這兩種先天(Innate)機制無法達到通用的人工智慧。
從上面的論證,可以結論AlphaGo Zero的人工智慧離人類的智慧還很遠,人類如果正確科學方法學圍棋,假以時日,是可以與AlphaGo Zero拼博的,人類要講方法學,不必妄自菲薄。(請看拙文
現代流5原則(修訂版)─圍棋的本質(3))
當擊敗ZenGo職業九段的棋力水準後,就多研習我在youtube裡的數十局AlphaGo Zero自己互搏的棋譜。由於買不到AlphaGo Zero電腦圍棋的單機版,無法與之「回手」對奕學招,但若能精心研究AlphaGo Zero自己互搏的棋譜,擊敗AlphaGo Zero不過是只怕有心人的時間問題。
最後,再強調圍棋「回手」,不僅可以向AI圍棋學招,也可在包括圍棋、高爾夫、花式溜冰等高度競技的比賽裡,降低因人類不可避免的情緒緊張失誤,若比賽規則允許「回手」的重來一次的彌補選手致命的「失常」,會大大增加比賽只靠實力奪冠的公平性。
若圍棋世界冠軍賽(及其他任何較低級別的圍棋賽)能允許棋手全局總共「回手」三次,則不僅較能公平的凸顯出棋手一貫的圍棋實力,並且還能引領全球正確的圍棋教育,如此,則臺灣及世界圍棋壇幸甚!