群集分析 - 中華職棒球員分類模型

更新於 發佈於 閱讀時間約 4 分鐘
raw-image

大家好!簡單介紹一下我所製作的中華職棒球員分類模型。

所有資料都是從BASEBALL REFERENCE網站抓的資料檔,我選了2016至2020年度中華職棒的所有選手資料,因為選手每年的資料都會被記錄下來,所以最多會有同一位球員的五筆年度資料。

首先,先找一下各隊年度勝率和該年隊上球員的平均打擊表現的相關係數,發現打擊率和勝率最有相關,其次是上壘率,與想像的結果相符我用了紅框中圈起來的部分作為參考變項,因為這些打擊表現指標和勝率有著一定的相關(r>0.5)。

raw-image

第二步驟是抓出各年度球員的資料,結合上述四個與全壘打率、被保送率、被三振率和犧牲打率做主成分分析(Principal component analysis),把這幾個變項做維度縮減,我最後只選定了兩個主成分當作變項,兩個主成分累積總變異數大概有到70%,還可以接受。

raw-image

可以看到第一主成分主要由與長打有關的變項所構成,主要包含了長打率、全壘打率;第二主成分主要由打擊率、上壘率和負向的被三振率組成,有了這兩個主成分後,就把這五年所有球員(548筆)依照這兩個主成分做群集分析。

raw-image

在群集分析中,我選擇k=3的分群結果(經過嘗試發現分成三群的結果較容易解釋),以下列出我對這三群打者的命名。

第一群:防守型球員,可以看到第一群打擊選手無論在長打或上壘能力都偏低,好像沒有太顯著的打擊能力特徵,所以我猜測這群選手可能是捕手或是二、游這種以守備見強的選手。
第二群:長打型球員,這類球員有著高長打率、高全壘打率,但上壘能力相對而言並不高,可能是因為具有高三振率的原因,可想而知這群選手應該是揮大棒型的選手。
第三群:均衡型球員,這群選手同時具有高上壘能力與高長打能力,猜測可能是我們耳熟能詳的一些知名球星組成。

下列為實際分群結果,因為資料密集,字體的顯示就顯得很醜XD

raw-image
raw-image
raw-image

從球員名單中可以發現這個分群結果大概如我所料中的分布,回到一開始和勝率的相關,相關最高者為打擊率、上壘率再來才是長打率,所以我們按照這個順序給予這些選手積分,落在第三群的均衡型選手們可以獲得3分,第二群的長打型選手有2分,第一群的無打擊天賦型只有1分。


最後我們找了2016~2020的總冠軍第一戰來做預測,因為總冠軍第一戰尤其重要,兩隊應該都會派出狀況最好的選手應戰,比較有參考價值,列出兩隊名單後,先填入每個選手該年的積分,最後做全隊平均,哪邊打擊積分高就預測那隊獲勝。

raw-image

2016犀牛v.s.中信兄弟,兩隊的打擊積分平均是1.88和2.55,所以預測中信兄弟獲勝,雖然看起來打擊積分差很多,但實際上中信只贏了1分XD

用同樣的方式去預測2017~2020,發現這種方式只有在2017年的時候失準,當年兩隊第一戰的平均打擊積分分別為2.33和2.16,代表兩隊的打擊能力相去不遠,不太好進行預測。

也就是說透過此模型預測總冠軍第一場的準確度達80%(當然這樣本數超少,因為要逐年比較跟填入分數太麻煩了XD),如果是預測該年度總冠軍隊伍的話準確度也有80%(只有2016年預測錯誤,該年總冠軍隊伍為義大犀牛)

以上是透過選手打擊能力預測總冠軍勝負的過程,這個方法的研究限制太多了,沒有考慮到守備能力、代打、投手群等等,希望未來可以發展跟投手有關的數值,可以同時參考兩個指標,做出更準確的判斷;而且目前樣本數還太少,在一開始的打擊表現指標選擇上也還需要多做著墨,仍有相當大的改進空間。

喜歡這些內容麻煩幫我按讚,也可分享出去給更多人知道,學海無涯,這些只是一點點小知識,希望大家會喜歡!


留言
avatar-img
留言分享你的想法!
avatar-img
炯男孩的沙龍
4會員
8內容數
本專題將以Python程式語言來實作資料結構,依序從陣列(Array)、堆疊(Stack)、佇列(Queue)、樹(Tree)到圖(Graph),透過不同方式來建立資料結構,並討論部分細節如:建構難度、記憶體空間、效率等等。
炯男孩的沙龍的其他內容
2022/08/10
本章介紹第二種常見的資料結構 - 堆疊(Stack),與陣列建立方式雷同,我們常透過靜態串列與動態鏈結串列的方式來建立堆疊,本文會介紹實作過程與比較兩種方式之間的差異。
Thumbnail
2022/08/10
本章介紹第二種常見的資料結構 - 堆疊(Stack),與陣列建立方式雷同,我們常透過靜態串列與動態鏈結串列的方式來建立堆疊,本文會介紹實作過程與比較兩種方式之間的差異。
Thumbnail
2022/08/09
本文為陣列實作的延伸,特別介紹鏈結串列不同的方式,以解決一些常發生在鏈結串列上的問題,並比較不同做法的優缺點。
Thumbnail
2022/08/09
本文為陣列實作的延伸,特別介紹鏈結串列不同的方式,以解決一些常發生在鏈結串列上的問題,並比較不同做法的優缺點。
Thumbnail
2022/07/12
本文會介紹靜態結構 - 串列(List)與動態結構 - 鏈結串列(Linked List)來實踐陣列的不同功能,如:刪除、計算元素個數與反轉。
Thumbnail
2022/07/12
本文會介紹靜態結構 - 串列(List)與動態結構 - 鏈結串列(Linked List)來實踐陣列的不同功能,如:刪除、計算元素個數與反轉。
Thumbnail
看更多
你可能也想看
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
今年中華職棒選秀分析文章來到最後一篇,本篇來聊台鋼雄鷹,今年是一軍首年,目前戰績排在聯盟墊底,現階段團隊投打戰力不如其他五隊完整,目前台鋼雄鷹打擊方面跟其他球隊有差距,現階段球隊缺乏長打能力打者,後援投手表現也不穩,今年選秀重點該優先補長打能力野手,還是即戰力牛棚,本篇來分析現階段一軍跟農場概況!
Thumbnail
今年中華職棒選秀分析文章來到最後一篇,本篇來聊台鋼雄鷹,今年是一軍首年,目前戰績排在聯盟墊底,現階段團隊投打戰力不如其他五隊完整,目前台鋼雄鷹打擊方面跟其他球隊有差距,現階段球隊缺乏長打能力打者,後援投手表現也不穩,今年選秀重點該優先補長打能力野手,還是即戰力牛棚,本篇來分析現階段一軍跟農場概況!
Thumbnail
今年中華職棒選秀分析文章來到第五篇,本篇來聊味全龍隊,今年是重回職棒第六年,去年靠著新生代小龍們拿下小龍們,2019年第一輪劉基鴻跟徐若熙發揮出應有實力,已經扛下隊上主力,但味全龍板凳深度不如其他球隊,所以本篇依照味全龍一二軍團隊成績比較聯盟成績,來分析現階段一軍跟農場概況,建議今年選秀適合方針!
Thumbnail
今年中華職棒選秀分析文章來到第五篇,本篇來聊味全龍隊,今年是重回職棒第六年,去年靠著新生代小龍們拿下小龍們,2019年第一輪劉基鴻跟徐若熙發揮出應有實力,已經扛下隊上主力,但味全龍板凳深度不如其他球隊,所以本篇依照味全龍一二軍團隊成績比較聯盟成績,來分析現階段一軍跟農場概況,建議今年選秀適合方針!
Thumbnail
2023/06/20為止的打擊數據 ⬅️2022➡️2023〈大谷翔平的打擊熱區〉 可以看出翔平攻擊點位變多,尤其是對偏高球路的掌握今年變得非常好(跟2021年有點相似) 今年因為聯盟規定的佈陣新規定 ,本來就預測左打今年的打擊成績會變好。 去年球季聯盟左打者的打擊率是2成36 今年是2成47;長打
Thumbnail
2023/06/20為止的打擊數據 ⬅️2022➡️2023〈大谷翔平的打擊熱區〉 可以看出翔平攻擊點位變多,尤其是對偏高球路的掌握今年變得非常好(跟2021年有點相似) 今年因為聯盟規定的佈陣新規定 ,本來就預測左打今年的打擊成績會變好。 去年球季聯盟左打者的打擊率是2成36 今年是2成47;長打
Thumbnail
這兩週整理分析 1.遊騎兵-----11場過8------+5注 2.光茫-------12場過8------+4注 3.道奇-------12場過8------+4注 4.洋基-------12場過8------+4注 也就是說這四隻會生蛋就幫你+17注 一注300元---------------
Thumbnail
這兩週整理分析 1.遊騎兵-----11場過8------+5注 2.光茫-------12場過8------+4注 3.道奇-------12場過8------+4注 4.洋基-------12場過8------+4注 也就是說這四隻會生蛋就幫你+17注 一注300元---------------
Thumbnail
中華隊此次表現雖以分組第五居末,下屆經典賽恐從資格賽開始打起,但此次打擊表現亮眼。目前效力於大聯盟波士頓紅襪隊的旅外球員張育成為進攻核心,四場比賽繳出7支安打、2發全壘打(包含一支滿貫砲)的優異表現,獲選為A組MVP。
Thumbnail
中華隊此次表現雖以分組第五居末,下屆經典賽恐從資格賽開始打起,但此次打擊表現亮眼。目前效力於大聯盟波士頓紅襪隊的旅外球員張育成為進攻核心,四場比賽繳出7支安打、2發全壘打(包含一支滿貫砲)的優異表現,獲選為A組MVP。
Thumbnail
透過機器學習中的群集分析分類中華職棒打擊選手,並根據打擊能力與上壘能力給予選手不同積分,最後將積分加總,做為對戰的參考。
Thumbnail
透過機器學習中的群集分析分類中華職棒打擊選手,並根據打擊能力與上壘能力給予選手不同積分,最後將積分加總,做為對戰的參考。
Thumbnail
這篇文章會觀察去年(2020,中職31年)整體攻擊指數(OPS)的兩個要素:長打率(SLG)跟上壘率(OBP)散佈圖,之後進行簡單討論。之後會用純長打率(IsoP)對OBP散佈圖討論之。
Thumbnail
這篇文章會觀察去年(2020,中職31年)整體攻擊指數(OPS)的兩個要素:長打率(SLG)跟上壘率(OBP)散佈圖,之後進行簡單討論。之後會用純長打率(IsoP)對OBP散佈圖討論之。
Thumbnail
USG%是一項公式簡明的數據,本身並無什麼爭議。但是因為中文多翻譯為「使用率」,語意混淆加上球迷的不求甚解,因此在中文圈中才會被誤用與過度解讀。(update: Apr 2020)
Thumbnail
USG%是一項公式簡明的數據,本身並無什麼爭議。但是因為中文多翻譯為「使用率」,語意混淆加上球迷的不求甚解,因此在中文圈中才會被誤用與過度解讀。(update: Apr 2020)
Thumbnail
史隆運動分析論壇(MIT SSAC),是北美運動數據研究圈中最重要的交流盛會,許多的運動數據分析人才與業界相關公司,都是透過此論壇所發跡。 以下為個人對SSAC 20入選論文的簡述。引言則是個人觀點。
Thumbnail
史隆運動分析論壇(MIT SSAC),是北美運動數據研究圈中最重要的交流盛會,許多的運動數據分析人才與業界相關公司,都是透過此論壇所發跡。 以下為個人對SSAC 20入選論文的簡述。引言則是個人觀點。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News