群集分析 - 中華職棒球員分類模型

更新於 2024/11/08閱讀時間約 3 分鐘
大家好!簡單介紹一下我所製作的中華職棒球員分類模型。

所有資料都是從BASEBALL REFERENCE網站抓的資料檔,我選了2016至2020年度中華職棒的所有選手資料,因為選手每年的資料都會被記錄下來,所以最多會有同一位球員的五筆年度資料。

首先,先找一下各隊年度勝率和該年隊上球員的平均打擊表現的相關係數,發現打擊率和勝率最有相關,其次是上壘率,與想像的結果相符我用了紅框中圈起來的部分作為參考變項,因為這些打擊表現指標和勝率有著一定的相關(r>0.5)。
勝率與打擊者數據指標
第二步驟是抓出各年度球員的資料,結合上述四個與全壘打率、被保送率、被三振率和犧牲打率做主成分分析(Principal component analysis),把這幾個變項做維度縮減,我最後只選定了兩個主成分當作變項,兩個主成分累積總變異數大概有到70%,還可以接受。
八種打擊表現指標主成分分析
可以看到第一主成分主要由與長打有關的變項所構成,主要包含了長打率、全壘打率;第二主成分主要由打擊率、上壘率和負向的被三振率組成,有了這兩個主成分後,就把這五年所有球員(548筆)依照這兩個主成分做群集分析。
球員群集分析分布
在群集分析中,我選擇k=3的分群結果(經過嘗試發現分成三群的結果較容易解釋),以下列出我對這三群打者的命名。
第一群:防守型球員,可以看到第一群打擊選手無論在長打或上壘能力都偏低,好像沒有太顯著的打擊能力特徵,所以我猜測這群選手可能是捕手或是二、游這種以守備見強的選手。
第二群:長打型球員,這類球員有著高長打率、高全壘打率,但上壘能力相對而言並不高,可能是因為具有高三振率的原因,可想而知這群選手應該是揮大棒型的選手。
第三群:均衡型球員,這群選手同時具有高上壘能力與高長打能力,猜測可能是我們耳熟能詳的一些知名球星組成。
下列為實際分群結果,因為資料密集,字體的顯示就顯得很醜XD
第一群,低長打能力與低上壘能力選手
第二群,高長打能力與低上壘能力選手
第三群,均衡的上壘與長打能力選手
從球員名單中可以發現這個分群結果大概如我所料中的分布,回到一開始和勝率的相關,相關最高者為打擊率、上壘率再來才是長打率,所以我們按照這個順序給予這些選手積分,落在第三群的均衡型選手們可以獲得3分,第二群的長打型選手有2分,第一群的無打擊天賦型只有1分。

最後我們找了2016~2020的總冠軍第一戰來做預測,因為總冠軍第一戰尤其重要,兩隊應該都會派出狀況最好的選手應戰,比較有參考價值,列出兩隊名單後,先填入每個選手該年的積分,最後做全隊平均,哪邊打擊積分高就預測那隊獲勝。
2016中華職棒總冠軍G1先發名單與對應積分
2016犀牛v.s.中信兄弟,兩隊的打擊積分平均是1.88和2.55,所以預測中信兄弟獲勝,雖然看起來打擊積分差很多,但實際上中信只贏了1分XD
用同樣的方式去預測2017~2020,發現這種方式只有在2017年的時候失準,當年兩隊第一戰的平均打擊積分分別為2.33和2.16,代表兩隊的打擊能力相去不遠,不太好進行預測。
也就是說透過此模型預測總冠軍第一場的準確度達80%(當然這樣本數超少,因為要逐年比較跟填入分數太麻煩了XD),如果是預測該年度總冠軍隊伍的話準確度也有80%(只有2016年預測錯誤,該年總冠軍隊伍為義大犀牛)
以上是透過選手打擊能力預測總冠軍勝負的過程,這個方法的研究限制太多了,沒有考慮到守備能力、代打、投手群等等,希望未來可以發展跟投手有關的數值,可以同時參考兩個指標,做出更準確的判斷;而且目前樣本數還太少,在一開始的打擊表現指標選擇上也還需要多做著墨,仍有相當大的改進空間。
喜歡這些內容麻煩幫我按讚,也可分享出去給更多人知道,學海無涯,這些只是一點點小知識,希望大家會喜歡!
avatar-img
4會員
8內容數
本專題將以Python程式語言來實作資料結構,依序從陣列(Array)、堆疊(Stack)、佇列(Queue)、樹(Tree)到圖(Graph),透過不同方式來建立資料結構,並討論部分細節如:建構難度、記憶體空間、效率等等。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
還記得此趟田野調查走進生態的世界(上)我前往野外做了一個小小的實驗嗎?這次將要分享一下我做完實驗的小小成果。這個實驗是一個有關腹斑蛙蝌蚪面對紅娘華所做的反應研究,讓我們繼續看下去吧! 生物群聚現象 在生活中我們會在冬天時會圍在一起取暖,假日時會找三五好友一起出遊,拔河時大家的力量贏得比賽。這些例
Thumbnail
煩惱的總是不同,漸漸同樣煩惱的人就會慢慢聚在一起 煩惱錢,一群窮人就會聚會談論錢 煩惱小孩,就一群家庭談論小孩 煩惱健康,就一起談養生 世界上每個話題都有群聚效應,而每個階段的話題也都在變,話題隨著年紀和生活階段,和任何因素交叉變化,我們會脫離某個團體,又去另一個群體,然後草木遊牧而居。
Thumbnail
雪柳(SpiraeasalicifoliaL.)又名珍珠綉線菊,為薔薇科綉線菊屬多年生木本植物,是一種獨特而美麗的花。
Thumbnail
人是群居生物,總是需要認同與幫助,
Thumbnail
印象中很久以前,曾看過一篇分析研究,指稱「老師年紀愈大,給學生的分數會打得愈高」。 可惜沒能再次查找到這類文章。 不過有時想想, 這一班導生,遇到此時的我, 還真是比很久以前我也曾帶過的那班導生, 幸運很多, 因為現在,我看到學生群聚聊天,不會反射性的生氣了。 自己的年紀變大?
在上一系列聊到生命演化的文章中,我們也有談到在近五億多年來發生了五次生物大滅絕,那大滅絕是什麼?以及萬一人類真的遇上生命大滅絕的環境有辦法挺過來嗎? 生物集群滅絕 生物集群滅絕是指在一個相對短暫的地質時段中,在一個以上並且較大的地理區域範圍內,生物數量和種類急劇下降的事件。這個概念主要是指宏觀生
Thumbnail
目的 當消費者和生產者在某個節點故障之下還能夠正常運作。 增加多個節點來擴展訊息的吞吐量。 簡單來說就是打群架,透過多台主機的方式處理龐大的訊息量。 集群的模式有哪些? Cluster: 不支持跨網段。 可以隨意動態增加/減少。 目前常用的方式。 Federation: 應用
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
還記得此趟田野調查走進生態的世界(上)我前往野外做了一個小小的實驗嗎?這次將要分享一下我做完實驗的小小成果。這個實驗是一個有關腹斑蛙蝌蚪面對紅娘華所做的反應研究,讓我們繼續看下去吧! 生物群聚現象 在生活中我們會在冬天時會圍在一起取暖,假日時會找三五好友一起出遊,拔河時大家的力量贏得比賽。這些例
Thumbnail
煩惱的總是不同,漸漸同樣煩惱的人就會慢慢聚在一起 煩惱錢,一群窮人就會聚會談論錢 煩惱小孩,就一群家庭談論小孩 煩惱健康,就一起談養生 世界上每個話題都有群聚效應,而每個階段的話題也都在變,話題隨著年紀和生活階段,和任何因素交叉變化,我們會脫離某個團體,又去另一個群體,然後草木遊牧而居。
Thumbnail
雪柳(SpiraeasalicifoliaL.)又名珍珠綉線菊,為薔薇科綉線菊屬多年生木本植物,是一種獨特而美麗的花。
Thumbnail
人是群居生物,總是需要認同與幫助,
Thumbnail
印象中很久以前,曾看過一篇分析研究,指稱「老師年紀愈大,給學生的分數會打得愈高」。 可惜沒能再次查找到這類文章。 不過有時想想, 這一班導生,遇到此時的我, 還真是比很久以前我也曾帶過的那班導生, 幸運很多, 因為現在,我看到學生群聚聊天,不會反射性的生氣了。 自己的年紀變大?
在上一系列聊到生命演化的文章中,我們也有談到在近五億多年來發生了五次生物大滅絕,那大滅絕是什麼?以及萬一人類真的遇上生命大滅絕的環境有辦法挺過來嗎? 生物集群滅絕 生物集群滅絕是指在一個相對短暫的地質時段中,在一個以上並且較大的地理區域範圍內,生物數量和種類急劇下降的事件。這個概念主要是指宏觀生
Thumbnail
目的 當消費者和生產者在某個節點故障之下還能夠正常運作。 增加多個節點來擴展訊息的吞吐量。 簡單來說就是打群架,透過多台主機的方式處理龐大的訊息量。 集群的模式有哪些? Cluster: 不支持跨網段。 可以隨意動態增加/減少。 目前常用的方式。 Federation: 應用