iPAS_AI應用規劃師_中級(「統計方法」筆記分享)

文宇

發佈於主編走跳人森

2025/10/31 更新2025/10/31 發佈閱讀 10 分鐘

11/8考試要到了，但統計這個單元對於我們這種統計通通還給老師的人來說，真的是有夠ooxx的難也，我用AI做了一個好理解的版本，分享給有需要的人，讓我們一起準備吧!!

🧠 L22 大數據處理分析與應用-數學與統計方法

課程內容分成五大主題：

描述性統計： 拿到一堆數字（資料）時，怎麼跟別人「一句話」講完重點。
相關性 vs. 關聯規則： 「身高＆體重」和「尿布＆啤酒」有什麼不一樣。
機率模型： 事情發生有哪些固定的「SOP」或「劇本」。
假說檢定： 怎麼用數據在法庭上當法官，證明你是對的。
Apriori 演算法： 找出「尿布＆啤酒」的快速方法。

1. 描述性統計：搞懂你手上的資料

想像一下你手上有全班 100 人的身高和體重，你總不能把 100 個數字都念出來。你需要「摘要」。

A. 找「中心點」（最能代表大家的值）

平均數 (Mean)：
- 白話說： 把所有人的錢掏出來，然後「平分」給大家。
- 考試重點： 它的缺點是「很不公平」，很容易被極端值（例如：郭台銘）拉高，變得沒有代表性。
中位數 (Median)：
- 白話說： 把所有人從最窮排到最富，站在「正中間」那個人。
- 考試重點： 它不怕極端值！在貧富差距大（資料很歪）的時候，看中位數才準。
眾數 (Mode)：
- 白話說： 「撞衫」撞最多的那個數字，出現最多次的。
- 考試重點： 它的缺點是可能「沒有」（大家都穿不一樣）或「有很多個」（好幾組人撞衫）。

B. 看「分散程度」（大家是差不多，還是差很多？）

光說「平均身高 170」還不夠，是一群 170 的人？還是一個 140 和一個 200？

全距 (Range)：
- 白話說： 全班最高的 - 最矮的。
- 考試重點： 很粗糙，只看了兩個最極端的人，不準。
四分位距 (IQR) & 箱形圖 (Box Plot)：
- 白話說： 把所有人分成「前 25%」、「中 50%」、「後 25%」三群。
- 考試重點： 中間那 50% 人（Q1 到 Q3）住的那個「箱子」，就是 IQR 。
- 記憶點： 箱子越扁，代表大家越集中（貧富差距小）；箱子越胖，代表大家越分散（貧富差距大）。
標準差 (Standard Deviation)：
- 白話說： 「平均」來說，大家離「平均值」有多遠。
- 考試重點： 這是最重要、最常用的分散指標。
- 記憶點： 標準差小 = 大家都乖乖在平均數旁邊（很集中）；標準差大 = 大家都亂跑（很分散）。

C. 描述「類別」資料（非數字的資料）

如果資料是「男、男、女、女」，或是「紅、藍、紅、綠」，就不能算平均數。這時我們要看的是「純不純」。

吉尼不純度 (Gini Impurity)：
- 白話說： 測量這袋資料「有多亂」。
- Gini = 0 (最純)： 一整袋 M&M 都是紅色的。
- Gini 越大 (越不純)： M&M 顏色很雜亂。
- Gini 最大值： 每種顏色的 M&M「數量剛好一樣多」時，最不純。

2. 相關性 vs. 關聯規則：兩種「有關」

「有關」分成兩種，考試很愛考它們的差別。

A. 相關係數 (Correlation)：A 變多，B 會跟著變多(或變少)嗎？

白話說： 看兩個「數字」變數的「連動關係」。例如：身高（變高） -> 體重（跟著變重）。
Pearson (皮爾森) R：
- 考試重點： 只能抓「直線關係」。
- -1 (完美負相關 \ ) 到 +1 (完美正相關 / )。 0 代表「沒有直線關係」。
- 缺點： 如果關係是「U 型」的（非線性），它會抓不到，跟你說R=0（無關）。
Spearman (斯皮爾曼) rho：
- 白話說： 它是 Pearson 的「升級版」。
- 考試重點： 它先不管數字多少，只看「排名」。A 排名上升時，B 的排名是不是也跟著上升？這樣就能抓到「曲線關係」（只要趨勢一致就好）。

B. 關聯規則 (Association Rule)：誰會跟誰「一起被買」？

白話說： 這不是看數字連動，而是看「一起出現」。最經典的「尿布與啤酒」。
Support (支援度)：
- 白話說： 「尿布 + 啤酒」這個組合，在所有訂單裡佔了幾 %？（看它紅不紅）
Confidence (信賴度)：
- 白話說： 在「有買尿布」的人當中，有多少比例「也買了」啤酒？
Lift (提升度)：
- 考試重點： 這才是最重要的！
- 白話說： 買尿布，真的有「提升」 啤酒的銷量嗎？還是只是因為啤酒本來就很紅（大家都會買）？
- Lift > 1： 真的有提升！ 買 A 確實會讓人更想買 B。
- Lift = 1： 沒用。買 A 跟買 B 沒關係，B 本來就這麼紅。
- Lift < 1： 反效果。買 A 的人反而「不愛」買 B。

3. 機率模型：事情發生的「劇本」

自然界很多事情的發生，都剛好符合某些數學「劇本」。

均勻分布 (Uniform)：
- 劇本： 每個結果的機率都「完全一樣」。
- 例子： 丟一顆公正的骰子（1~6 都是 1/6）。
二項式分布 (Binomial)：
- 劇本： 只問「成功 / 失敗」兩種結果的。
- 例子： 投籃 10 次（N=10），進 8 次（k=8）的機率是多少？
卜瓦松分布 (Poisson)：
- 劇本： 算「單位時間/空間內，發生 N 次」的機率。
- 例子： 一家店「平均每小時 10 個客人」，那在「這小時剛好來 15 個」的機率是多少？
指數分布 (Exponential)：
- 劇本： 卜瓦松的「相反」。算「要等多久」下一個才會來。
- 例子： 一家店「平均每小時 10 個客人」，那「5 分鐘內」下一個客人就來的機率是多少？
常態分布 (Normal)：
- 劇本： 「鐘形曲線」（貝爾曲線）。
- 白話說： 大自然中「最常見」的劇本。大部分人都很「平均」，只有極少數人是極端值。
- 例子： 全國身高、體重、考試分數。

4. 假說檢定：用數據當法官

這是最難的，但用「法庭審判」來記就對了。

A. 審判的SOP

你想證明的事（你的論點）： 叫做「對立假說 H1」（例如：這個藥有效！這個人有罪！）。
你想推翻的事（無聊的現狀）： 叫做「虛無假說 H0」（例如：這個藥沒效。這個人無罪。）。

法庭SOP：

先假設 H0 是對的（法官：我先當你是無罪的）。
看你拿出的「證據」（數據）。
計算 p-value (p值)：
- 白話說： 「如果 H0 是真的（他真的無罪），那能看到這麼巧的證據（例如：凶器上有他指紋）的機率有多低？」
下判決（你心中要先有一把尺，叫 Alpha (α) 顯著水準，通常是 5% 或 0.05）：
- 如果 p < 0.05 (p值很小)： 「太巧了吧！如果他是無罪的，發生這鳥事的機率不到 5%！」
- 判決： 證據太強了，不可能是巧合。我「拒絕 H0」（拒絕你無罪的說法）-> 你的論點 (H1) 勝利！
- 如果 p > 0.05 (p值很大)： 「嗯...這證據很普通啊，就算他是無罪的，也蠻可能發生的。」
- 判決： 證據不足。我「無法拒絕 H0」（我不能說你無罪，但我沒辦法判你有罪）。

B. 該用哪種「法條」（檢定）？

Z 檢定 vs. t 檢定：
- 都是用來比「平均數」有沒有差。
- 考試重點： t 檢定 (t-test) 是最常用的。
- Z 檢定： 你「已知」全體（母體）的標準差。（夢中才會發生，現實中很少用）
- t 檢定： 你「未知」全體的標準差，只能用你手上「樣本」的標準差去猜。（這才是現實！）
ANOVA (變異數分析)：
- 白話說： t 檢定的「多人版」。
- 考試重點： 當你要比較「3 組（或以上）」的平均數時使用。
- 例子： 比較「A 教法、B 教法、C 教法」的學生平均分數有沒有差別。
卡方檢定 (Chi-Square)：
- 白話說： 用來看「類別」資料（非數字）有沒有關聯。
- 例子： 檢測「性別」（男/女）跟「看電影的喜好」（A片/B片/C片）有沒有關聯。

5. Apriori 演算法 (補充)

這是關聯規則的實作方法。

白話說： 找出「熱門組合」的「刪去法」。
SOP：
1. 第一輪： 先看「單品」（A, B, C, D, E）。把賣太少（低於 Support 門檻）的先砍掉。例如 C, D 太冷門，砍掉。
2. 第二輪： 把剩下的 (A, B, E) 兩兩配對成 (AB, AE, BE)。
3. 再砍： 算這三組的 Support，把賣太少的組合砍掉。例如 AB, AE 太冷門，砍掉。
4. 結果： 最後剩下 BE。這就是你要找的「最有關聯的熱門組合」。