群集分析 - 中華職棒球員分類模型

更新 發佈閱讀 4 分鐘
vocus|新世代的創作平台

大家好!簡單介紹一下我所製作的中華職棒球員分類模型。

所有資料都是從BASEBALL REFERENCE網站抓的資料檔,我選了2016至2020年度中華職棒的所有選手資料,因為選手每年的資料都會被記錄下來,所以最多會有同一位球員的五筆年度資料。

首先,先找一下各隊年度勝率和該年隊上球員的平均打擊表現的相關係數,發現打擊率和勝率最有相關,其次是上壘率,與想像的結果相符我用了紅框中圈起來的部分作為參考變項,因為這些打擊表現指標和勝率有著一定的相關(r>0.5)。

vocus|新世代的創作平台

第二步驟是抓出各年度球員的資料,結合上述四個與全壘打率、被保送率、被三振率和犧牲打率做主成分分析(Principal component analysis),把這幾個變項做維度縮減,我最後只選定了兩個主成分當作變項,兩個主成分累積總變異數大概有到70%,還可以接受。

vocus|新世代的創作平台

可以看到第一主成分主要由與長打有關的變項所構成,主要包含了長打率、全壘打率;第二主成分主要由打擊率、上壘率和負向的被三振率組成,有了這兩個主成分後,就把這五年所有球員(548筆)依照這兩個主成分做群集分析。

vocus|新世代的創作平台

在群集分析中,我選擇k=3的分群結果(經過嘗試發現分成三群的結果較容易解釋),以下列出我對這三群打者的命名。

第一群:防守型球員,可以看到第一群打擊選手無論在長打或上壘能力都偏低,好像沒有太顯著的打擊能力特徵,所以我猜測這群選手可能是捕手或是二、游這種以守備見強的選手。
第二群:長打型球員,這類球員有著高長打率、高全壘打率,但上壘能力相對而言並不高,可能是因為具有高三振率的原因,可想而知這群選手應該是揮大棒型的選手。
第三群:均衡型球員,這群選手同時具有高上壘能力與高長打能力,猜測可能是我們耳熟能詳的一些知名球星組成。

下列為實際分群結果,因為資料密集,字體的顯示就顯得很醜XD

vocus|新世代的創作平台
vocus|新世代的創作平台
vocus|新世代的創作平台

從球員名單中可以發現這個分群結果大概如我所料中的分布,回到一開始和勝率的相關,相關最高者為打擊率、上壘率再來才是長打率,所以我們按照這個順序給予這些選手積分,落在第三群的均衡型選手們可以獲得3分,第二群的長打型選手有2分,第一群的無打擊天賦型只有1分。


最後我們找了2016~2020的總冠軍第一戰來做預測,因為總冠軍第一戰尤其重要,兩隊應該都會派出狀況最好的選手應戰,比較有參考價值,列出兩隊名單後,先填入每個選手該年的積分,最後做全隊平均,哪邊打擊積分高就預測那隊獲勝。

vocus|新世代的創作平台

2016犀牛v.s.中信兄弟,兩隊的打擊積分平均是1.88和2.55,所以預測中信兄弟獲勝,雖然看起來打擊積分差很多,但實際上中信只贏了1分XD

用同樣的方式去預測2017~2020,發現這種方式只有在2017年的時候失準,當年兩隊第一戰的平均打擊積分分別為2.33和2.16,代表兩隊的打擊能力相去不遠,不太好進行預測。

也就是說透過此模型預測總冠軍第一場的準確度達80%(當然這樣本數超少,因為要逐年比較跟填入分數太麻煩了XD),如果是預測該年度總冠軍隊伍的話準確度也有80%(只有2016年預測錯誤,該年總冠軍隊伍為義大犀牛)

以上是透過選手打擊能力預測總冠軍勝負的過程,這個方法的研究限制太多了,沒有考慮到守備能力、代打、投手群等等,希望未來可以發展跟投手有關的數值,可以同時參考兩個指標,做出更準確的判斷;而且目前樣本數還太少,在一開始的打擊表現指標選擇上也還需要多做著墨,仍有相當大的改進空間。

喜歡這些內容麻煩幫我按讚,也可分享出去給更多人知道,學海無涯,這些只是一點點小知識,希望大家會喜歡!


留言
avatar-img
炯男孩的沙龍
4會員
8內容數
本專題將以Python程式語言來實作資料結構,依序從陣列(Array)、堆疊(Stack)、佇列(Queue)、樹(Tree)到圖(Graph),透過不同方式來建立資料結構,並討論部分細節如:建構難度、記憶體空間、效率等等。
炯男孩的沙龍的其他內容
2022/08/10
本章介紹第二種常見的資料結構 - 堆疊(Stack),與陣列建立方式雷同,我們常透過靜態串列與動態鏈結串列的方式來建立堆疊,本文會介紹實作過程與比較兩種方式之間的差異。
Thumbnail
2022/08/10
本章介紹第二種常見的資料結構 - 堆疊(Stack),與陣列建立方式雷同,我們常透過靜態串列與動態鏈結串列的方式來建立堆疊,本文會介紹實作過程與比較兩種方式之間的差異。
Thumbnail
2022/08/09
本文為陣列實作的延伸,特別介紹鏈結串列不同的方式,以解決一些常發生在鏈結串列上的問題,並比較不同做法的優缺點。
Thumbnail
2022/08/09
本文為陣列實作的延伸,特別介紹鏈結串列不同的方式,以解決一些常發生在鏈結串列上的問題,並比較不同做法的優缺點。
Thumbnail
2022/07/12
本文會介紹靜態結構 - 串列(List)與動態結構 - 鏈結串列(Linked List)來實踐陣列的不同功能,如:刪除、計算元素個數與反轉。
Thumbnail
2022/07/12
本文會介紹靜態結構 - 串列(List)與動態結構 - 鏈結串列(Linked List)來實踐陣列的不同功能,如:刪除、計算元素個數與反轉。
Thumbnail
看更多
你可能也想看
Thumbnail
這兩週整理分析 1.遊騎兵-----11場過8------+5注 2.光茫-------12場過8------+4注 3.道奇-------12場過8------+4注 4.洋基-------12場過8------+4注 也就是說這四隻會生蛋就幫你+17注 一注300元---------------
Thumbnail
這兩週整理分析 1.遊騎兵-----11場過8------+5注 2.光茫-------12場過8------+4注 3.道奇-------12場過8------+4注 4.洋基-------12場過8------+4注 也就是說這四隻會生蛋就幫你+17注 一注300元---------------
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
2023/06/20為止的打擊數據 ⬅️2022➡️2023〈大谷翔平的打擊熱區〉 可以看出翔平攻擊點位變多,尤其是對偏高球路的掌握今年變得非常好(跟2021年有點相似) 今年因為聯盟規定的佈陣新規定 ,本來就預測左打今年的打擊成績會變好。 去年球季聯盟左打者的打擊率是2成36 今年是2成47;長打
Thumbnail
2023/06/20為止的打擊數據 ⬅️2022➡️2023〈大谷翔平的打擊熱區〉 可以看出翔平攻擊點位變多,尤其是對偏高球路的掌握今年變得非常好(跟2021年有點相似) 今年因為聯盟規定的佈陣新規定 ,本來就預測左打今年的打擊成績會變好。 去年球季聯盟左打者的打擊率是2成36 今年是2成47;長打
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
透過機器學習中的群集分析分類中華職棒打擊選手,並根據打擊能力與上壘能力給予選手不同積分,最後將積分加總,做為對戰的參考。
Thumbnail
透過機器學習中的群集分析分類中華職棒打擊選手,並根據打擊能力與上壘能力給予選手不同積分,最後將積分加總,做為對戰的參考。
Thumbnail
這篇文章會觀察去年(2020,中職31年)整體攻擊指數(OPS)的兩個要素:長打率(SLG)跟上壘率(OBP)散佈圖,之後進行簡單討論。之後會用純長打率(IsoP)對OBP散佈圖討論之。
Thumbnail
這篇文章會觀察去年(2020,中職31年)整體攻擊指數(OPS)的兩個要素:長打率(SLG)跟上壘率(OBP)散佈圖,之後進行簡單討論。之後會用純長打率(IsoP)對OBP散佈圖討論之。
Thumbnail
今年中華職棒選秀分析文章來到第五篇,本篇來聊味全龍隊,今年是重回職棒第六年,去年靠著新生代小龍們拿下小龍們,2019年第一輪劉基鴻跟徐若熙發揮出應有實力,已經扛下隊上主力,但味全龍板凳深度不如其他球隊,所以本篇依照味全龍一二軍團隊成績比較聯盟成績,來分析現階段一軍跟農場概況,建議今年選秀適合方針!
Thumbnail
今年中華職棒選秀分析文章來到第五篇,本篇來聊味全龍隊,今年是重回職棒第六年,去年靠著新生代小龍們拿下小龍們,2019年第一輪劉基鴻跟徐若熙發揮出應有實力,已經扛下隊上主力,但味全龍板凳深度不如其他球隊,所以本篇依照味全龍一二軍團隊成績比較聯盟成績,來分析現階段一軍跟農場概況,建議今年選秀適合方針!
Thumbnail
中華隊此次表現雖以分組第五居末,下屆經典賽恐從資格賽開始打起,但此次打擊表現亮眼。目前效力於大聯盟波士頓紅襪隊的旅外球員張育成為進攻核心,四場比賽繳出7支安打、2發全壘打(包含一支滿貫砲)的優異表現,獲選為A組MVP。
Thumbnail
中華隊此次表現雖以分組第五居末,下屆經典賽恐從資格賽開始打起,但此次打擊表現亮眼。目前效力於大聯盟波士頓紅襪隊的旅外球員張育成為進攻核心,四場比賽繳出7支安打、2發全壘打(包含一支滿貫砲)的優異表現,獲選為A組MVP。
Thumbnail
今年中華職棒選秀分析文章來到最後一篇,本篇來聊台鋼雄鷹,今年是一軍首年,目前戰績排在聯盟墊底,現階段團隊投打戰力不如其他五隊完整,目前台鋼雄鷹打擊方面跟其他球隊有差距,現階段球隊缺乏長打能力打者,後援投手表現也不穩,今年選秀重點該優先補長打能力野手,還是即戰力牛棚,本篇來分析現階段一軍跟農場概況!
Thumbnail
今年中華職棒選秀分析文章來到最後一篇,本篇來聊台鋼雄鷹,今年是一軍首年,目前戰績排在聯盟墊底,現階段團隊投打戰力不如其他五隊完整,目前台鋼雄鷹打擊方面跟其他球隊有差距,現階段球隊缺乏長打能力打者,後援投手表現也不穩,今年選秀重點該優先補長打能力野手,還是即戰力牛棚,本篇來分析現階段一軍跟農場概況!
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News