作者:陳華夫
有兩、三千年歷史的圍棋,在中、日、韓三國創造了很多「圍棋天才」,但2016年「Google谷歌」人工智慧的「AlphpaGo」把他們都掃下了神壇(詳見拙文
「人工智慧」的AlphaGo「圍棋革命」─圍棋的本質(1) ),長期以來,人們崇拜這些「圍棋天才」(如
吳清源 大師等),神秘化他們的高超棋力,並且有數不清的圍棋經典書籍傳頌這些天才逸文佚事。
當「AlphpaGo」成了世界圍棋無敵霸主以後,谷歌也同樣搞神秘化的造神運動,不僅不公開其電腦程式碼供「人工智慧」研究,也不販售「AlphpaGo」電腦圍棋的單機版,方便一般棋手與之對弈。
首先,依照
「賽局理論」(Game Theory) 圍棋是資訊完全公開的賽局(「Perfect Information 賽局」,或「Markov 賽局」),與「麻將」及「撲克牌21點」都有不可知的暗牌不同,它們叫做「Imperfect Information賽局」,「賽局理論」Game Theory)的目的就是找到參與者的最佳博奕策略─「
納許均衡 」(Nash equilibrium)。
圍棋的規則是對弈雙方各自走一手,直到局終。持白棋的先走,但必須適當補償後走的「黑棋」6或7.5點,所以圍棋是雙方公平(Fair)的賽局。圍棋勝負的判定,是依雙方各自在19 x 19棋盤上,所圈定的地盤多少而定,多半點以上一方就算穫勝。
但是關鍵的問題來了,雖說圍棋是公平的賽局,但卻是「風險」(不確定性)的賽局;平均一局圍棋兩百多手,不到終局的任何一手,都令賽局「豬羊變色」,正所謂「一著棋錯,滿盤皆輸」。在如此的賽局,局部短期的「領先」,毫無意義,全局的大局觀「占優」才是關鍵。「AlphpaGo」能橫掃人類,就在其無人能及的全局的大局觀,這個問題要等下一篇文章來專論。(另請看拙文:
「人工智慧」的AlphaGo「圍棋革命」─圍棋的本質(1) )
本文先談另一個關鍵的問題:既然圍棋是各走一手的公平賽局,為何「AlphpaGo」棋力高出人類一大截─為何能讓人類五顆子呢?
長久以來,我們都用「天分」或「天才」來解釋棋力的高低。但是,當人們用「天才」來解釋吳清源大師的高超的「棋力」時,就等於間接承認人們對「棋力」本質知之甚少。當然就更無法解釋「AlphpaGo」的棋力為何能讓人類(包括吳清源大師)五子?
在谷歌刻意搞神秘的情況下,要解釋「AlphpaGo」高超「棋力」的真相,並不容易。我在拙文
「人工智慧」的AlphaGo「圍棋革命」─圍棋的本質(1) , 從「人工智慧」的角度切入,回答「AlphpaGo」憑什麼卻能擊敗人類行之數千年的圍棋,但過多的專有名詞複雜化了真正的問題,真相反而不易解讀。
於是,再寫本文,化繁為簡的說明「AlphpaGo」高超的「棋力」來自以下三方面:
1)包括「AlphpaGo」在內的圍棋軟體,從第一手開始就在計算,也就是說,每一手都做「預估盤面」─即預估盤點對弈雙方所掌握的實空,再加上未來潛在可能成空的點數。這個預估,當盤面手數少時,很不精確,但隨著盤面手數越多,預估的準確性隨著提高,到了「收關」階段,這個「預估盤面」就變成了準確的「盤面清點」。
2)「AlphpaGo」的這個「預估盤面」用在模擬(試走)的局勢優劣的判斷,它每次使用至少3輪的「蒙特卡洛樹搜索」(Monte Carlo tree search)的模擬(試走),以選取「預估盤面」局勢最優的一手。而這種3輪的試走模擬的策略,實質意義上就是一種「悔棋」─試走若不滿意,就後悔的換另一種。換句話說,「AlphpaGo」每下一手都悔棋,但而人類卻「起手無回大丈夫」,連一手都不能回,這就違反圍棋的公平原則。深入的研究,就發現人類不能「悔棋」是「棋力」比「AlphpaGo」差一大截的一種原因。(請看拙文
千夫所指的圍棋允許「回手」(悔棋)─圍棋本質(5) )
綜上所述「AlphpaGo」的高超棋力是來自三點:(1)「預估盤面」;(2)每手3輪模擬試走的悔棋;(3)從第一手就開始「算計」對方。這些分析得來的圍棋知識,就為人類擊敗「AlphpaGo」點了盞明燈。
2)圍棋世界冠軍賽(及其它任何較低級別的圍棋賽)能允許棋手全局總共「回手」三次(請看拙文
各級別的圍棋賽請允許三次回手(悔棋)─圍棋的本質(4) ),前面說過,雖然「AlphpaGo」每一手都是實質意義上的「悔棋」,但在實際棋賽中,不能允許每一手都能悔棋,否則沒完沒了,耗時太多。於是我建議允許總共三次悔棋,則人類與「AlphpaGo」站在悔棋的基本公平點。
人類若能使用這種貫穿全局的現代流圍棋策略,才可以從第一手就「算計」對手,以扭轉被「AlphpaGo」讓五子的劣勢。