高一下, 統計2

更新於 發佈於 閱讀時間約 4 分鐘

在統計1中, 我們討論了如何觀察一個數值的集合, 擁有諸如「眾數」, 「中位數」, 「算術平均數」和標準差等工具. 那麼, 如果我們想要觀察和瞭解2個數值集合之間的關係呢?

先來討論一個觀念:「標準化」

在我們試著做「比較」時, 往往需要訂立一個比較的「標準」, 這就是標準化的由來. 而標準化往往透過的手段是「除法」.

舉個例子, 今天有個美國人A和一個台灣人B想要比較看看誰比較優秀. 而他們想到的比較方式是各自的年薪.這時候, 由於美國和台灣的薪資水平顯然有著巨大的差異, 一個美國普通人的收入, 往往就輾壓了大部份台灣人(包含台灣菁英)的收入. 直接比較他們各自的年薪然後說這個美國人比台灣人優秀顯然是不合適的. 所以我們可以拿「美國人A的年薪/美國人的平均國民所得」和「台灣人B的年薪/台灣人的平均所得」來比較, 也就是以他們各自所在群體的「算術平均數」當作標準, 透過這樣的「標準化」, 若最後得出「美國人A的年薪/美國人的平均國民所得」=1.5, 而「台灣人B的年薪/台灣人的平均所得」=2, 那麼我們就可以說在這樣的定義上, 這位台灣人B很可能比這位美國人A優秀.

這樣的推論是有前提的, 前提是認為「一般來說, 美國人和台灣人都是人類, 大約是一般聰明和優秀的, 美國人的頂級菁英和台灣人的頂級菁英一樣優秀, 美國人最弱勢的人群也和台灣最弱勢的人群素質接近」, 這樣一來, 透過各自國家的年均所得來當作標準, 所得到的標準化的結果, 會發現那位美國人A的優秀程度大約是1.5個美國人的平均, 而那位台灣人B則是大約2倍於台灣的一般人. 因此判定這位台灣人相對優秀一些.

那麼, 如果我們知道兩個數值集合的「算術平均數」和「標準差」, 能不能定義一種標準化的方式, 讓我們能更客觀的比較這兩個數值集合, 甚至得知這兩個數值集合的(線性)變化關聯性呢?

以標準差為單位的標準化:

前一篇統計1中有提到一個觀念, 其實標準差可以視為一個數值集合中的所有元素到其算術平均數之間的平均距離.

以標準差為底的標準化

以標準差為底的標準化

證明標準化後平均值為0, 標準差為1

證明標準化後平均值為0, 標準差為1

相關係數

相關係數r的定義

相關係數r的定義

數據標準化後相關係數不變

數據標準化後相關係數不變

這樣定義相關係數的好處是甚麼?可以幫助我們藉此提取出甚麼客觀資訊?

  1. 相關係數r的範圍有界, 必然介於-1和1之間
證明1「相關係數r必然介於-1和1之間」

證明1「相關係數r必然介於-1和1之間」

證明2「相關係數r必然介於-1和1之間」

證明2「相關係數r必然介於-1和1之間」

2. 當 r 為 1 時,表示兩個變數之間有完全正向線性相關;當 r 為 -1 時,表示兩個變數之間有完全負向線性相關;當 r 為 0 時,表示兩個變數之間沒有線性相關關係。

.相關係數r能表達出相關性的方向,當兩個變數為「正相關」時,此相關係數的數值為正,反之則為負。

.相關係數r能表達出兩變數線性相關的程度。當x變量變大時,y變量有變大或變小的趨勢較強時,兩變量的相關強度較強,此時,相關係數的絕對值也較大。

需要注意的是,當兩個變量的相關係數越接近0,並不一定意味著它們之間沒有任何關係。它們可能存在其他類型的關係,例如非線性關係或時間延遲關係等,這些關係可能需要使用其他方法來進行建模和分析。相關係數只能反映線性相關程度,而不能反映變量之間的其他類型的關係。因此,在分析和建模中,需要根據具體情況選擇適當的方法和技術。

3. 相關係數r與一變數所使用的量測單位無關✩

例如測量身高與體重的相關性時,不論身高的單位是用公分或吋,體重的單位是用公斤或磅,所得的相關係數應相同。

標準化的結果並不因線性關係而變化

標準化的結果並不因線性關係而變化

4. 標準化資料Y對X的最佳(迴歸)直線L為Y=rX

y對x的最佳直線公式

y對x的最佳直線公式













留言
avatar-img
留言分享你的想法!
avatar-img
小民的沙龍
0會員
7內容數
小民的沙龍的其他內容
2023/11/05
最近2024總統大選最熱門的話題就是「藍白合」。 這個話題其實對三黨民眾都很糾結,對民進黨支持者來說,看到藍白合不起來,邊看笑話邊心驚膽戰,因為他們知道,藍白合民進大將沒什麼勝選希望。而對國民黨和民眾黨的支持者來說,也糾結,國民黨想像吃掉親民黨一樣消化掉民眾黨,恢復兩個爛蘋果的邏輯
2023/11/05
最近2024總統大選最熱門的話題就是「藍白合」。 這個話題其實對三黨民眾都很糾結,對民進黨支持者來說,看到藍白合不起來,邊看笑話邊心驚膽戰,因為他們知道,藍白合民進大將沒什麼勝選希望。而對國民黨和民眾黨的支持者來說,也糾結,國民黨想像吃掉親民黨一樣消化掉民眾黨,恢復兩個爛蘋果的邏輯
2023/04/19
複利的計算過程
Thumbnail
2023/04/19
複利的計算過程
Thumbnail
2023/04/16
高一下數列的代入求解法和一般項求解法
Thumbnail
2023/04/16
高一下數列的代入求解法和一般項求解法
Thumbnail
看更多
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
Thumbnail
  雖然平均數可以拿來代表一群數值,但一整群數字之中還有另一個很重要的資訊,那就是這群數字有多分散。而變異數 (variance) 或標準差 (standard deviation,簡寫為SD) 就是在描述一群數字的分散程度。
Thumbnail
要觀察一個數值的集合有很多方法,透過這些方法得出數值集合的某些特徵,可以讓我們除了「感覺」外,能有更「理性客觀」的方式來理解這個數值集合的特徵。 眾數:一個集合中出現最多次的那個元素,以此作為一個集合的代表性特徵算是很直覺的作法。但缺點是,以眾數作為一個集合的標籤,我們無法透過眾數得知
Thumbnail
要觀察一個數值的集合有很多方法,透過這些方法得出數值集合的某些特徵,可以讓我們除了「感覺」外,能有更「理性客觀」的方式來理解這個數值集合的特徵。 眾數:一個集合中出現最多次的那個元素,以此作為一個集合的代表性特徵算是很直覺的作法。但缺點是,以眾數作為一個集合的標籤,我們無法透過眾數得知
Thumbnail
皮爾森相關係數 (r) 是衡量線性相關性的最常用方法。它是一個介於 –1 和 1 之間的數值,用於衡量兩個變量之間關係的強度和方向。本文簡介公式解釋和SPSS教學。
Thumbnail
皮爾森相關係數 (r) 是衡量線性相關性的最常用方法。它是一個介於 –1 和 1 之間的數值,用於衡量兩個變量之間關係的強度和方向。本文簡介公式解釋和SPSS教學。
Thumbnail
很多時候我們會聽到,現在股價高檔要留意下修的風險或現在的股價在低檔可以開始進行布局,這時你心中一定會想,股價的高檔或是低檔這些位階,是如何判斷的?這次我將告訴你,我如何透過『相對位階估價法』評估股價的位階,同時我也會告訴你這種『相對位階估價法』的缺點,避免你陷入投資方法的誤區。
Thumbnail
很多時候我們會聽到,現在股價高檔要留意下修的風險或現在的股價在低檔可以開始進行布局,這時你心中一定會想,股價的高檔或是低檔這些位階,是如何判斷的?這次我將告訴你,我如何透過『相對位階估價法』評估股價的位階,同時我也會告訴你這種『相對位階估價法』的缺點,避免你陷入投資方法的誤區。
Thumbnail
Kolmogorov-Smirnov 適合度檢定,該方法為檢定樣本次數分配與某一特定母群體分配間的差異是否達到顯著性(一般用來檢定常態分配或是其他類型的連續性分配)。檢定統計量邏輯、計算流程、查表值請參考下列敘述
Thumbnail
Kolmogorov-Smirnov 適合度檢定,該方法為檢定樣本次數分配與某一特定母群體分配間的差異是否達到顯著性(一般用來檢定常態分配或是其他類型的連續性分配)。檢定統計量邏輯、計算流程、查表值請參考下列敘述
Thumbnail
Durbin-Watson test,對模組的殘差項進行相關聯性檢定,常應用於迴歸分析以及需要限制殘差項要為獨立常態分配。不過我在應用上更關心價格資料是否有聚集在均線附近,若有則可以判定盤整盤,反之則有趨勢發生,相關統計檢定計算步驟詳列如下
Thumbnail
Durbin-Watson test,對模組的殘差項進行相關聯性檢定,常應用於迴歸分析以及需要限制殘差項要為獨立常態分配。不過我在應用上更關心價格資料是否有聚集在均線附近,若有則可以判定盤整盤,反之則有趨勢發生,相關統計檢定計算步驟詳列如下
Thumbnail
別讓統計數字騙了你(How to Lie wish Statistics) 有內建偏差的樣本 抽樣的樣本不足以代表全體,有代表性的樣本,這是指把各種偏差來源都排除的樣本。譬如在街頭或是火車站進行隨機的訪問結果,樣本中會明顯少了總是開車出門的樣本。 受訪者想要給一個會讓訪問員喜歡的答案,在
Thumbnail
別讓統計數字騙了你(How to Lie wish Statistics) 有內建偏差的樣本 抽樣的樣本不足以代表全體,有代表性的樣本,這是指把各種偏差來源都排除的樣本。譬如在街頭或是火車站進行隨機的訪問結果,樣本中會明顯少了總是開車出門的樣本。 受訪者想要給一個會讓訪問員喜歡的答案,在
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News