[探索] 預測大未來:538 如何做 2018 世界盃預測

2018/07/13閱讀時間約 21 分鐘
 
你知道嗎?足球是源自於哪一個國家呢?答案,將在本文最後揭曉。
隨著暑假的即將開始,2018 年,國際體壇最重大盛事也即將畫下尾聲。在決賽即將開打之前,讓我們再來回顧一下,此屆世界盃的精彩精華,不過不是透過精彩的進球影像,而是透過數據和圖表。
圖一左的樹狀圖,就是這屆世界盃,經過長達半個月的小組賽,終於從 32 隻隊伍中選拔出 16 支國家隊,進入第二階段的淘汰賽。這次的世界盃如同以往過去的世界盃般,讓許多球迷們跌破了不少眼鏡,更與球場上的球星們一起灑下了許多英雄淚。但,即使自己支持的隊伍已經提早打包返國度假,對賽事仍抱持著熱情的球迷們,或賭性堅強的運彩賭徒們,仍舊堅持關注賽事進展,因為很快的,真正的大獎即將知曉。但首先,讓我們來看看圖一右下,以運用統計知識進行精準預測的網站 FiveThirtyEight (在此簡稱 538)[註一] 對這次賽事,所做的動態預測樹狀圖。 而下圖右上,則是對今早(七月十一日)凌晨,法國與比利時的四強淘汰賽,隨著比賽進程,所做動態勝負預測。
 
538 這個網站,以預測美國總統大選起家的 Nate Silver,於 2008 年成立,隨後在許多與政治相關的預測,都獲得驚人的準確預測結果。538 在 2014 開始進行世界盃賽事的預測,包括賽前預測以及賽事現場預測。在 2014 年世界盃後,538 網站也對世界盃會外資格賽,五大洲 26 個足球聯盟,以及女子世界盃做不同程度的報導和賽事預測。早在此屆世界杯開打之前,538 已累積了許多國家隊的會外賽資料,以及五大洲各俱樂部的球員資料
世界盃的比賽,如同許多國際賽事一般複雜,除了舉辦的地主國自動符合資格外,各洲間,必須要經歷時約三年的會外資格賽 [註二],最後 31 支國際勁旅脫穎而出,取得前往世界盃決賽的資格門票。 總決賽的結構可以由 538 在 2014 所做的預測網頁的動態圖表來說明。可以將總決賽分成兩個階段:
第一階段為長達半個月的小組賽。小組賽又稱為積分賽,其比賽進行的方式,是先將 32 支隊伍以抽籤的方式分成八個小組,對小組內的四支隊伍,進行總共三輪的六場比賽。獲勝隊伍可以獲得 3 的積分,平手則各獲一分,輸的隊伍則無法獲得任何積分。每個小組,將取出最高積分的前兩名,作為進入淘汰賽的資格隊伍。若有積分相同者,則比較進球數差。在小組賽結束後,進入淘汰賽之前,所有球員身上的黃牌數目皆重設,不會累積到下一個賽事。小組賽不一定要分出勝負,所以並沒有讓人神經緊繃的 PK 賽,就像俱樂部賽事一樣,只不過舉行的時間比較短暫。
第二階段則是淘汰賽。淘汰賽又分為十六強賽(Round of 16),八強賽(Quarter-finals),四強賽(Semi-finals)到決賽(final),和第三名的四強後賽(Play-off for the third place)。在這個階段的賽事,每一場比賽一定要分出勝負出來,所以遇到了正規賽事約 90 分鐘的時間內,無法分出勝負的情況下,會用以下的程序來解決平手的情況:首先進行分別由不同兩隊主攻各 15 分鐘的延長賽。若在 30 分鐘的延長賽尚未能產生贏家,則會進行緊張刺激的 PK 賽(Penalty Shoot-out)。在 1990 至 2000 初期,比賽的賽制還興盛一種稱為「黃金進球」的延長賽制,也就是在延長賽中,率先進球的隊伍便是贏家,兩隊無需賽完整個延長時間。但因為「黃金進球」這種延長賽制,仍舊難以製造PK 賽的緊張刺激感,所以在數屆國際賽事上實行後,便被取消了。
下圖便是,藉由 Kaggle FIFA World Cup Dataset 提供 1930 - 2014 世界盃的賽事資料所畫出來的世界盃總賽事數目和總進球數。
 

538 世界盃賽事互動介面介紹

538 對於目前正在進行的賽事,可以根據新的賽事變化,修正模型的準確度。我們可以利用 “Standings” 分頁最下方, “Forecast from” 的下拉選單選取,在第二輪小組賽之前(before 2nd group matches),第三輪小組賽之前(before 3rd group matches),在十六強賽之前亦是最後一輪小組賽之前(before round of 16),八強賽之前(before quarter-finals)和至今(today)也就是四強賽。
 

在 “Matches” 這個分頁下,則是對單場比賽的勝負做預測。這張圖的橫軸是比賽時間,縱軸是兩隊的勝負機率,已不同的顏色表示。在圖一的右上角,是台灣今早清晨所進行的比利時與法國的比賽。可以由單場比賽的預測機率圖看到,從一開始兩國的勝負機率大概五五波,到了下半場,法國以頭球順利拿下第一分後,法國的勝率,深藍色,突然大增,在圖中出現一個如斷崖般的陡降趨勢。而隨著時間的消逝,比利時隊一直未能突破法國防線,反映比利時的困境,在比賽結束前幾分鐘,勝率最終降至零。
最後,則在 “Bracket” 的分頁下,以樹狀結構來記錄賽事的預測和結果,是要簽運彩們想知道賠率的好夥伴。在這個分頁下,有兩個 panel,分別顯示小組賽和淘汰賽結果。第一個 panel,顯示的是小組賽結果,因為目前已經到了四強賽,所以已經沒有資料變動。而第二個 panel 則是,以樹狀圖表示的淘汰賽結果,同樣的因為比賽的賽事大致塵埃若定,僅有比賽樹的最上層,可以透過核取方塊決定,誰將會進入總決賽,以及該比賽兩隊的獲勝機率。
 

538 世界盃賽事預測模型介紹

在對 538 所用的預測模型做介紹之前,筆者想先說明一下世界杯預測的困難之處。首先,資料數量問題,從第一屆世界盃,1930 年到上一屆 2014 年,總共只有 20 場盃賽,涵蓋了約八百多筆的賽事。在這麼小的數據量,想要利用深度學習或任何仰賴大數量學習的機械學習方法,幾乎會發生過渡擬合的情況。
顯然的,相對於動輒幾萬筆資料的大數據時代,這麼小的數據量,就算想秉持著「一個都不能少」的精神,來充分利用現有資料,預測此屆世界盃的結果,似乎也會面臨,預測稀少事件且發生週期較長的第二個問題 -- 資料可靠度。甚而,世界盃在這八十多年,賽制上已變更不少,當時的球員們也紛紛退役,單單以原資料做預測,其預測能力讓人質疑(見延伸閱讀一)。
其次,這是一個零和對局的遊戲。也就是,一個國家的勝率通常會決定另一個國家的負率,若把這個預測單單看作是否這個國家會得冠軍杯這樣的分類問題,就會忽略了足球比賽屬於對戰式的比賽。

訓練資料的取得

為了解決上述的兩個問題,Groll et. al 於 2018 年六月發表的一篇預測 2018 年世界盃的文章,便只使用 2002 和 2014 之間的賽事(見延伸閱讀二)。而 538 則從ESPN [註三] 的資料庫以及 James Curley’s GitHub 蒐集至 1988 年到今日約有 550,000 場國際比賽資料,將 1905 年後的國際俱樂部賽事,作為他們俱樂部的比賽預測模型的訓練資料。為了能平衡遠古時代的國際比賽的資料,538 亦使用球員在俱樂部的資料,以及由 Opta 公司所提供以人工方式觀看比賽,並標注比賽中更細微的球員特質,事實上,就和電影《魔球》裡描寫的方法相似。

評比系統的設計:Elo Rating 和 Soccer Power Index Rating

為了能夠量化球隊和球員的能力,及表現一場比賽中的競爭關係,538 使用一種已廣泛使用在零和遊戲,如西洋棋,大聯盟球員的「評比」系統,Elo Rating System 。在西洋棋中,Elo rating 可以量化一場比賽中兩個對手的實力差距,而兩個選手的 Elo rating 在每一次對戰的過程中,可以依對戰的結果調整各自的評比。和單單記錄輸贏的次數,並主觀的評鑑該賽事的激烈程度而予以不同積分的 Harkness system 不同,Elo rating 採取統計方法,並假設每一個球員的能力分布是成高斯分佈,但有著不同的標準差。
隨著學習,並與不同能力的對手作戰累積經驗,球員的能力分布的平均值會往高評價移動。每一次與不同評比的對手對戰,會先計算一個期望比數,並以此當作基準,在比賽過後,依據真正的比賽結果和賽前的期望差距,來重新調整兩個球員的評比。當比賽的結果與期望落差愈大,如小蝦米對上大鯨魚,成功翻盤的故事,那麼小蝦米的評比就會在這次翻盤比賽中上升許多。
Nate Silver 和 538 的編輯團隊,認為 Elo rating 的方法並不能直接應用在足球上。原因在於利用 Elo rating 對超過兩百支國家隊伍評比後,發現平均隊伍的評比遠落在前 32 名。與這樣的平均隊伍比較,並不能反映世界杯賽事的激烈狀況。其次,只考慮輸贏並不能準確反映該隊伍的表現,為了能準確預測一支隊伍在世界盃的表現,還必須考慮進球差以及主場優勢等等因素。538 的編輯團隊在多次改進後 Elo Rating,並重新命名為 Soccer Power Index(SPI) Rating 的數值來對足球比賽做預測 [註四]。
而根據這個 SPI 是用於量測隊伍本身的在賽事中勝出的評比或是球員的個人能力的評比,又可被稱為 Match-based SPI 和 Roster-based SPI,這倆個 SPI 分別以 3:1 的比例來計算最後的 World cup SPI。可以參見由 538 網站所提供的簡單圖解:
 
SPI 這個數值,用來描述隊伍在單一賽事的進攻(offensive rating)和防守能力評比(defensive rating)。一個隊伍的進攻能力可以定義如下:一個隊伍在該賽事的總調整進球數,再加上對手的防守能力評比。而防守能力評比,則是一個隊伍在該賽事讓對手進球的總調整進球數,以及賽前的防守評比。這兩個數值,相加起來就是單一賽事的國家隊 SPI,或又稱為 Match-based SPI。
另外為了能準確描述,國家隊球員的個人能力,538 使用了國家隊隊員在俱樂部的比賽資料,並用此資料來計算球員本身的進球能力。但,球隊是團體運動,一個球員在國家隊的表現,通常還需考慮球隊的磨合程度以及國家隊教練的戰術調度。所以,一個被徵召入國家隊的球員,他在國家隊的 SPI 是根據俱樂部的成績以及他在該俱樂部每一球季上場的時間。若球員在球季每一場比賽皆有上場,則該球員的 SPI 則和俱樂部的 SPI 相等,相反地,一個整個球季都在板凳上枯坐的球員,他的 SPI 則為俱樂部的 SPI 的 3/4。這個結合國家隊名冊和俱樂部表現的 SPI 評比,被稱為 Roster-based SPI。
最後,計算國家隊的 World-Cup SPI 時,先確定 Roster-based SPI 與 Match-based SPI 具有相等的數距,然後再以 1:3 的比例來相加兩個數值得出。

根據進球的情況來調整得球數

538 的預測模型中,得球數的估計,並不是僅僅只有量測最後進球的總數,還會針對進球的情境來做調整。根據進球或沒進球但造成對手威脅的情境,可以分為四類。 淨進球數(goals), 調整進球數(adjusted goals), 根據射門次數的期待得分數(shot-based expected goals)以及非射門行為的期待得分數(non-shot expected goals)。現就這四個不同進球種類,如何轉換成球隊能力評比的分數,並併入 SPI 中計算。
淨進球數(goals)即是比賽中,真正的入球數。而調整進球數(adjusted goals) 則是將進球時的條件而往下減少淨進球數,條件可包括場上人數差距,和比賽激烈狀況。在場上人數有差距的情況下,較多的一方的一顆淨進球數,會由 1 調整爲 0.8。另一種調整情境,在比賽接近尾聲,雙方在其中一隊小幅領先的情況。根據 538 的編輯們解釋,倘若比賽已經進行到 70 分鐘,則仍在領先一球的狀態下,其進球的重要度會和增加的時間成線性遞減。也就是說,70 分鐘的淨進球,仍可以一球計算,但 80 分鐘的淨進球,則須向下修爲 0.75,到了90 分鐘則為 0.5。
根據射門次數調整的期待得分數(shot-based expected goals),則是用該隊伍的進攻次數,重新調整淨進球總數。一個球員通常要經歷多次的嘗試射門,才會有一球入網,所以根據射門次數調整的期待得分數又可視為球員將射門攻擊次數(賽後的統計數據上的 “shots” 和 “shots on target”)轉換為真正得分的能力。
538 團隊認為最具影響力的指標則是,非射門行為導致的期待得分數(Non-shot expected goals),這個數值並不是量測真正的進球數,而是該隊伍給予對手在禁區或靠近禁區進球壓力的次數,或對手透過攔截阻止了對手的進球,卻因犯規造成 12 碼的罰球機會。這兩種情境在國家隊比賽中構成了將近 23% 進球方式。對於根據射門次數調整的期待得分數非射門行為導致的期待得分數538 團隊都會利用現有的歷史資料來計算這些行動背後的真正勝率。
這四個進球量測的平均值,是用來計算進球能力指標評比。而對手的四個進球量測的平均值則可作為該隊的防守能力指標評比。
此外,在世界盃淘汰賽中紅牌的影響力,是非常巨大的,所以在 538 的世界盃預測模型中,也沒忘了將紅牌考慮在調整淨進球數。因為遭到紅牌下場的,造成場上比賽人數的差距,而頓時成為比賽實力懸殊的比賽(話又說回來,是有守門員紅牌下場的嗎?)。因為紅牌下場而導致輸球的著名比賽,包括了貝克漢在 1998 年世界盃,因為惡意絆倒對方球員,而遭裁判直接紅牌下場,也使貝克漢當時成了英格蘭千夫所指的罪人。在 2006 年的世界盃決賽,法國的席丹,對上義大利的馬特拉齊,以他一記頭槌,為他的世界盃最後一個賽事留下了一個傳奇下場方式。

現場賽事預測

單一比賽的預測,將會依據對戰兩隊賽前的大量比賽資料,事先計算出的 SPI。最後對這兩支比賽隊伍,建立兩個 Poisson Process 的模型,來建立兩隊的隨賽事演進得分的模型。Poisson 分佈,其分佈具有平均值和方差相等的特性,適於具有計數性質或描述事件的離散變數,其平均值又可被稱為事件發生率。在 Poisson 分布下,其事件發生率不會隨時間改變,而 Poisson Process 則是將時間考慮在模型內,如常見的佇列等待模型,通常時間愈長,事件發生的速率愈趨於緩慢。
 
538 在 2014 年預測巴西和克羅埃西亞的比賽為例。可以看到上圖顯示的是巴西和克羅埃西亞在 2014 年比賽的預測二維矩陣。在矩陣的上方是巴西隊預測的得球預測機率,而在矩陣左方則是克羅埃西亞的得球預測機率。可以看到在賽前(上圖左),538 的編輯們一致不看好克羅埃西亞,該隊的得分預測分佈圖是集中在低得分端點。而巴西則是有較廣的分數分佈範圍。
因為一場足球比賽的進球數真的很少,所以,538 的編輯們將大於五球的進球機率合計。所以,此場比賽的預測可以用一個  6x6 的矩陣表示。這個矩陣,以及在開賽後兩隊各得一分平手的情況下(上圖右),隨著新的資訊獲得,比賽的列舉各種可能的得分機率也隨之更新。這些矩陣中,如同是比賽中隨著時間的橫切片,反映的是動態比賽進行間的預測。然而,面對直撥預測, 目前世界盃賽制僅有 64 場比賽,對訓練一個有效的 on-line learning 模型,仍舊是非常困難。

比賽時間計算和 PK 賽預測

當在做賽事現場預測時,有時因為傷停時間而在正規比賽中多出了幾分鐘。然而,538 表示,額外幾分鐘的延長比賽,是否重要到需要併入預測,則基於幾個考量:給予黃牌的次數和時間,通常在下半場,每給一次黃牌,約在正規時間上增加大約十一秒左右。以及比賽比數是否接近,若兩隊之間的差距僅一分,那麼將會有大約 40 秒的時間被加入 90 分鐘的正規賽事中。
現場PK 的進球數和在正規比賽內的進球數不一樣,因為 12 碼這麼近的距離,幾乎每個心理素質穩定的球員都會進球,所以與其是考驗射手,不如說是考驗守門員是否能的猜中射手的意圖(不過這個機率,或許與守門員在球門前擺個神龕來擲筊,是差不多的。)事實上,因為 PK 過於刺激,尤其在勢均力敵的兩隊,通常會進行好幾輪以上才能分出勝負。所以 538 也在 2014 年對 PK 做了詳實的分析與現場預測 (見延伸閱讀三)。

2018 世界盃全賽程預測

為了要預測世界盃那一支隊伍可以一路從小組賽挺進,並最終取得世界足球圈的聖盃,538 的編輯們利用 Monte Carlo 模擬,對此屆盃賽中每場賽事做模擬,並根據模擬的結果來預估每支國家隊在盃賽過程中,成功到達某一階段的機率。此外,根據賽事新的進展,538 的預測專家們,就像這個預測系統的內在批評者,不停地對預測失準的地方做修正。在 2014 年,538 用了 10,000 模擬數目,而 2018 則用高出兩倍的模擬數,來進行預測,希冀能以增加模擬的數量,而獲得更準確的預測。
其次為了能了解, 538 世足預測模型的準確度,特別就 2018 年開賽前到決賽前的資料來做簡單的分析。下圖就是以 2018/7/11 日的結果為標準,與之前分別在此屆盃賽開始前,小組賽賽程中間,以及十六強,八強到四強賽後的預測做比較。使用的是量測分類器常用的 cross-entropy (又稱為 log loss),作為量測單位。可以看到,克羅埃西亞,從一開始不被看好,到現在一路挺進決賽,只能說這屆黑馬,非他們莫屬啦!
 
最後,或許有些科技公司們,玩膩了線上遊戲,想要將他們設計的超級智慧機器應用在賽事預測上。目前,已有人工智慧學者,企圖用 AI 來玩 Fifa 遊戲來回答,是否能利用強化學習,令智慧機器觀看大量的足球比賽,而從中學習到足球比賽的規則。或用強化學習來教導 AI game bot 做 Free kick。或許也有其他專家們,可以設計一套智慧輔助足球聯隊經理系統,而將魔球的精神也帶到足球聯賽來。其次,如何模擬足球運動預測專家們是如何思考並利用 domain knowledge 來做 feature engineering,或許也是一個創新之舉。
想想,世界杯足球的預測或許如世界上的許多問題一般,大從經濟預測小到罕見遺傳疾病預測,也不是一個簡單的問題。
倒底是誰先發明足球的呢?根據 FIFA 的官方網站所撰寫的 History of Football - The Origins“ 一文,是在西元前二或三世紀由中國人發明的。在水滸傳上亦有記載,高俅因擅長蹴踘(只能用腳和頭部觸碰球的運動),而獲得宋徽宗喜愛重用。

圖片來源:

[1] Reddit "To Be Fair, Cephalopod's Are One of the Deepest Learners I Know Of"
[2] 538 "How Our 2018 World Cup Predictions Work"

註釋:

[註一] 538 是美國選舉人團的數目
[註二] 台灣每年也在中華台北的名字下參加會外賽喔!
[註三] 538 在 2014 被 ESPN 買下,隨後又在 2018 年被 ABC 電視台買下新聞部門。
[註四] 事實上,的確有人利用 Elo Rating 來替各國球隊做評比

延伸閱讀:

[1] 50 Years Of World Cup Doppelgangers: FiveThirtyEight's MESSI* analysis compares how every athlete played in every men’s World Cup from 1966 to 2018 by generating statistical fingerprints of 5,899 World Cup performances.
[2] Prediction of the FIFA World Cup 2018 – A random forest approach with an emphasis on estimated team ability parameters. Groll et al.
[3] A Chart For Predicting Penalty-Shootout Odds in Real Time

為什麼會看到廣告
Rene Wang
Rene Wang
程式設計師是將咖啡轉換為程式碼的魔術師。40%偽文青,35%網路宅女,15%生活白癡,10%仍然尋找生命的意義(或仍然作著白日夢)。
留言0
查看全部
發表第一個留言支持創作者!