群集分析 - 中華職棒球員分類模型

2024/11/08 更新2021/11/09 發佈閱讀 4 分鐘

大家好！簡單介紹一下我所製作的中華職棒球員分類模型。

所有資料都是從BASEBALL REFERENCE網站抓的資料檔，我選了2016至2020年度中華職棒的所有選手資料，因為選手每年的資料都會被記錄下來，所以最多會有同一位球員的五筆年度資料。

首先，先找一下各隊年度勝率和該年隊上球員的平均打擊表現的相關係數，發現打擊率和勝率最有相關，其次是上壘率，與想像的結果相符我用了紅框中圈起來的部分作為參考變項，因為這些打擊表現指標和勝率有著一定的相關(r>0.5)。

第二步驟是抓出各年度球員的資料，結合上述四個與全壘打率、被保送率、被三振率和犧牲打率做主成分分析(Principal component analysis)，把這幾個變項做維度縮減，我最後只選定了兩個主成分當作變項，兩個主成分累積總變異數大概有到70%，還可以接受。

可以看到第一主成分主要由與長打有關的變項所構成，主要包含了長打率、全壘打率；第二主成分主要由打擊率、上壘率和負向的被三振率組成，有了這兩個主成分後，就把這五年所有球員(548筆)依照這兩個主成分做群集分析。

在群集分析中，我選擇k=3的分群結果(經過嘗試發現分成三群的結果較容易解釋)，以下列出我對這三群打者的命名。

第一群：防守型球員，可以看到第一群打擊選手無論在長打或上壘能力都偏低，好像沒有太顯著的打擊能力特徵，所以我猜測這群選手可能是捕手或是二、游這種以守備見強的選手。

第二群：長打型球員，這類球員有著高長打率、高全壘打率，但上壘能力相對而言並不高，可能是因為具有高三振率的原因，可想而知這群選手應該是揮大棒型的選手。

第三群：均衡型球員，這群選手同時具有高上壘能力與高長打能力，猜測可能是我們耳熟能詳的一些知名球星組成。

下列為實際分群結果，因為資料密集，字體的顯示就顯得很醜XD

從球員名單中可以發現這個分群結果大概如我所料中的分布，回到一開始和勝率的相關，相關最高者為打擊率、上壘率再來才是長打率，所以我們按照這個順序給予這些選手積分，落在第三群的均衡型選手們可以獲得3分，第二群的長打型選手有2分，第一群的無打擊天賦型只有1分。

最後我們找了2016~2020的總冠軍第一戰來做預測，因為總冠軍第一戰尤其重要，兩隊應該都會派出狀況最好的選手應戰，比較有參考價值，列出兩隊名單後，先填入每個選手該年的積分，最後做全隊平均，哪邊打擊積分高就預測那隊獲勝。

2016犀牛v.s.中信兄弟，兩隊的打擊積分平均是1.88和2.55，所以預測中信兄弟獲勝，雖然看起來打擊積分差很多，但實際上中信只贏了1分XD

用同樣的方式去預測2017~2020，發現這種方式只有在2017年的時候失準，當年兩隊第一戰的平均打擊積分分別為2.33和2.16，代表兩隊的打擊能力相去不遠，不太好進行預測。

也就是說透過此模型預測總冠軍第一場的準確度達80%(當然這樣本數超少，因為要逐年比較跟填入分數太麻煩了XD)，如果是預測該年度總冠軍隊伍的話準確度也有80%(只有2016年預測錯誤，該年總冠軍隊伍為義大犀牛)

以上是透過選手打擊能力預測總冠軍勝負的過程，這個方法的研究限制太多了，沒有考慮到守備能力、代打、投手群等等，希望未來可以發展跟投手有關的數值，可以同時參考兩個指標，做出更準確的判斷；而且目前樣本數還太少，在一開始的打擊表現指標選擇上也還需要多做著墨，仍有相當大的改進空間。

喜歡這些內容麻煩幫我按讚，也可分享出去給更多人知道，學海無涯，這些只是一點點小知識，希望大家會喜歡！

#機器學習

#中華職棒

#群集分析

留言

炯男孩的沙龍

4會員

8內容數

本專題將以Python程式語言來實作資料結構，依序從陣列(Array)、堆疊(Stack)、佇列(Queue)、樹(Tree)到圖(Graph)，透過不同方式來建立資料結構，並討論部分細節如：建構難度、記憶體空間、效率等等。

炯男孩的沙龍的其他內容

2022/08/10

從Python認識資料結構(五)．堆疊

本章介紹第二種常見的資料結構 - 堆疊(Stack)，與陣列建立方式雷同，我們常透過靜態串列與動態鏈結串列的方式來建立堆疊，本文會介紹實作過程與比較兩種方式之間的差異。

2022/08/10

從Python認識資料結構(五)．堆疊

2022/08/09

從Python認識資料結構(四)．陣列

本文為陣列實作的延伸，特別介紹鏈結串列不同的方式，以解決一些常發生在鏈結串列上的問題，並比較不同做法的優缺點。

2022/08/09

從Python認識資料結構(四)．陣列

本文為陣列實作的延伸，特別介紹鏈結串列不同的方式，以解決一些常發生在鏈結串列上的問題，並比較不同做法的優缺點。

2022/07/12

從Python認識資料結構(三)．陣列

本文會介紹靜態結構 - 串列(List)與動態結構 - 鏈結串列(Linked List)來實踐陣列的不同功能，如：刪除、計算元素個數與反轉。

2022/07/12

從Python認識資料結構(三)．陣列

本文會介紹靜態結構 - 串列(List)與動態結構 - 鏈結串列(Linked List)來實踐陣列的不同功能，如：刪除、計算元素個數與反轉。

看更多

你可能也想看

AK47殺手的沙龍

MLB職棒懶人簡易整理

這兩週整理分析 1.遊騎兵-----11場過8------+5注 2.光茫-------12場過8------+4注 3.道奇-------12場過8------+4注 4.洋基-------12場過8------+4注也就是說這四隻會生蛋就幫你+17注一注300元---------------

2023/05/27

2023/05/27

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

見諸參與鄧伯宸口述，鄧湘庭於〈那個大霧的時代〉記述父親回憶，鄧伯宸因故遭受牽連，而案件核心的三人，在鄧伯宸記憶裡：「成立了成大共產黨，他們製作了五星徽章，印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單，以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿，另外還有手槍子彈十發。」

#釀電影#釀藝評#藝術評論

2026/05/07

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

#釀電影#釀藝評#藝術評論

2026/05/07

Showy Love的沙龍

打者翔平🔋打擊數據分析

2023/06/20為止的打擊數據 ⬅️2022➡️2023〈大谷翔平的打擊熱區〉可以看出翔平攻擊點位變多，尤其是對偏高球路的掌握今年變得非常好(跟2021年有點相似) 今年因為聯盟規定的佈陣新規定，本來就預測左打今年的打擊成績會變好。去年球季聯盟左打者的打擊率是2成36 今年是2成47；長打

2023/06/20

2023/06/20

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

5 月，方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間，每週都會有新的任務地圖與陪跑計畫，從最簡單的帳號使用、沙龍建立，到帶著你從一句話、一張照片開始，一步一步找到屬於自己的創作節奏。不需要長篇大論，不需要完美的文筆，只需要帶上你今天的日常，就可以出發。征服創作島，抱回靈感與大獎！

#創作#vocus#方格創作島

2026/04/23

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

#創作#vocus#方格創作島

2026/04/23

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28