2023-05-01|閱讀時間 ‧ 約 4 分鐘

高一下, 統計2

在統計1中, 我們討論了如何觀察一個數值的集合, 擁有諸如「眾數」, 「中位數」, 「算術平均數」和標準差等工具. 那麼, 如果我們想要觀察和瞭解2個數值集合之間的關係呢?
先來討論一個觀念:「標準化」
在我們試著做「比較」時, 往往需要訂立一個比較的「標準」, 這就是標準化的由來. 而標準化往往透過的手段是「除法」.
舉個例子, 今天有個美國人A和一個台灣人B想要比較看看誰比較優秀. 而他們想到的比較方式是各自的年薪.這時候, 由於美國和台灣的薪資水平顯然有著巨大的差異, 一個美國普通人的收入, 往往就輾壓了大部份台灣人(包含台灣菁英)的收入. 直接比較他們各自的年薪然後說這個美國人比台灣人優秀顯然是不合適的. 所以我們可以拿「美國人A的年薪/美國人的平均國民所得」和「台灣人B的年薪/台灣人的平均所得」來比較, 也就是以他們各自所在群體的「算術平均數」當作標準, 透過這樣的「標準化」, 若最後得出「美國人A的年薪/美國人的平均國民所得」=1.5, 而「台灣人B的年薪/台灣人的平均所得」=2, 那麼我們就可以說在這樣的定義上, 這位台灣人B很可能比這位美國人A優秀.
這樣的推論是有前提的, 前提是認為「一般來說, 美國人和台灣人都是人類, 大約是一般聰明和優秀的, 美國人的頂級菁英和台灣人的頂級菁英一樣優秀, 美國人最弱勢的人群也和台灣最弱勢的人群素質接近」, 這樣一來, 透過各自國家的年均所得來當作標準, 所得到的標準化的結果, 會發現那位美國人A的優秀程度大約是1.5個美國人的平均, 而那位台灣人B則是大約2倍於台灣的一般人. 因此判定這位台灣人相對優秀一些.
那麼, 如果我們知道兩個數值集合的「算術平均數」和「標準差」, 能不能定義一種標準化的方式, 讓我們能更客觀的比較這兩個數值集合, 甚至得知這兩個數值集合的(線性)變化關聯性呢?
以標準差為單位的標準化:
前一篇統計1中有提到一個觀念, 其實標準差可以視為一個數值集合中的所有元素到其算術平均數之間的平均距離.
以標準差為底的標準化
以標準差為底的標準化
證明標準化後平均值為0, 標準差為1
相關係數
相關係數r的定義
數據標準化後相關係數不變
這樣定義相關係數的好處是甚麼?可以幫助我們藉此提取出甚麼客觀資訊?
  1. 相關係數r的範圍有界, 必然介於-1和1之間
證明1「相關係數r必然介於-1和1之間」
證明2「相關係數r必然介於-1和1之間」
2. 當 r 為 1 時,表示兩個變數之間有完全正向線性相關;當 r 為 -1 時,表示兩個變數之間有完全負向線性相關;當 r 為 0 時,表示兩個變數之間沒有線性相關關係。
.相關係數r能表達出相關性的方向,當兩個變數為「正相關」時,此相關係數的數值為正,反之則為負。
.相關係數r能表達出兩變數線性相關的程度。當x變量變大時,y變量有變大或變小的趨勢較強時,兩變量的相關強度較強,此時,相關係數的絕對值也較大。
需要注意的是,當兩個變量的相關係數越接近0,並不一定意味著它們之間沒有任何關係。它們可能存在其他類型的關係,例如非線性關係或時間延遲關係等,這些關係可能需要使用其他方法來進行建模和分析。相關係數只能反映線性相關程度,而不能反映變量之間的其他類型的關係。因此,在分析和建模中,需要根據具體情況選擇適當的方法和技術。
3. 相關係數r與一變數所使用的量測單位無關✩
例如測量身高與體重的相關性時,不論身高的單位是用公分或吋,體重的單位是用公斤或磅,所得的相關係數應相同。
標準化的結果並不因線性關係而變化
4. 標準化資料Y對X的最佳(迴歸)直線L為Y=rX
y對x的最佳直線公式
分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.