11/8考試要到了,但統計這個單元對於我們這種統計通通還給老師的人來說,真的是有夠ooxx的難也,我用AI做了一個好理解的版本,分享給有需要的人,讓我們一起準備吧!!
🧠 L22 大數據處理分析與應用-數學與統計方法
課程內容分成五大主題:
- 描述性統計: 拿到一堆數字(資料)時,怎麼跟別人「一句話」講完重點。
- 相關性 vs. 關聯規則: 「身高&體重」和「尿布&啤酒」有什麼不一樣。
- 機率模型: 事情發生有哪些固定的「SOP」或「劇本」。
- 假說檢定: 怎麼用數據在法庭上當法官,證明你是對的。
- Apriori 演算法: 找出「尿布&啤酒」的快速方法。
1. 描述性統計:搞懂你手上的資料
想像一下你手上有全班 100 人的身高和體重,你總不能把 100 個數字都念出來。你需要「摘要」。
A. 找「中心點」(最能代表大家的值)
- 平均數 (Mean):
- 白話說: 把所有人的錢掏出來,然後「平分」給大家。
- 考試重點: 它的缺點是「很不公平」,很容易被極端值(例如:郭台銘)拉高,變得沒有代表性 。
- 中位數 (Median):
- 白話說: 把所有人從最窮排到最富,站在「正中間」那個人。
- 考試重點: 它不怕極端值!在貧富差距大(資料很歪)的時候,看中位數才準 。
- 眾數 (Mode):
- 白話說: 「撞衫」撞最多的那個數字,出現最多次的。
- 考試重點: 它的缺點是可能「沒有」(大家都穿不一樣)或「有很多個」(好幾組人撞衫)。
B. 看「分散程度」(大家是差不多,還是差很多?)
光說「平均身高 170」還不夠,是一群 170 的人?還是一個 140 和一個 200?
- 全距 (Range):
- 白話說: 全班最高的 - 最矮的。
- 考試重點: 很粗糙,只看了兩個最極端的人,不準 。
- 四分位距 (IQR) & 箱形圖 (Box Plot):
- 白話說: 把所有人分成「前 25%」、「中 50%」、「後 25%」三群。
- 考試重點: 中間那 50% 人(Q1 到 Q3)住的那個「箱子」,就是 IQR 。
- 記憶點: 箱子越扁,代表大家越集中(貧富差距小);箱子越胖,代表大家越分散(貧富差距大)。
- 標準差 (Standard Deviation):
- 白話說: 「平均」來說,大家離「平均值」有多遠 。
- 考試重點: 這是最重要、最常用的分散指標。
- 記憶點: 標準差小 = 大家都乖乖在平均數旁邊(很集中);標準差大 = 大家都亂跑(很分散)。
C. 描述「類別」資料(非數字的資料)
如果資料是「男、男、女、女」,或是「紅、藍、紅、綠」,就不能算平均數。這時我們要看的是「純不純」。
- 吉尼不純度 (Gini Impurity):
- 白話說: 測量這袋資料「有多亂」。
- Gini = 0 (最純): 一整袋 M&M 都是紅色的 。
- Gini 越大 (越不純): M&M 顏色很雜亂。
- Gini 最大值: 每種顏色的 M&M「數量剛好一樣多」時,最不純 。
2. 相關性 vs. 關聯規則:兩種「有關」
「有關」分成兩種,考試很愛考它們的差別。
A. 相關係數 (Correlation):A 變多,B 會跟著變多(或變少)嗎?
- 白話說: 看兩個「數字」變數的「連動關係」。例如:身高(變高) -> 體重(跟著變重)。
- Pearson (皮爾森) R:
- 考試重點: 只能抓「直線關係」。
- -1 (完美負相關 \ ) 到 +1 (完美正相關 / )。 0 代表「沒有直線關係」。
- 缺點: 如果關係是「U 型」的(非線性),它會抓不到,跟你說R=0(無關)。
- Spearman (斯皮爾曼) rho:
- 白話說: 它是 Pearson 的「升級版」。
- 考試重點: 它先不管數字多少,只看「排名」。A 排名上升時,B 的排名是不是也跟著上升?這樣就能抓到「曲線關係」(只要趨勢一致就好)。
B. 關聯規則 (Association Rule):誰會跟誰「一起被買」?
- 白話說: 這不是看數字連動,而是看「一起出現」。最經典的「尿布與啤酒」。
- Support (支援度):
- 白話說: 「尿布 + 啤酒」這個組合,在所有訂單裡佔了幾 %?(看它紅不紅)
- Confidence (信賴度):
- 白話說: 在「有買尿布」的人當中,有多少比例「也買了」啤酒?
- Lift (提升度):
- 考試重點: 這才是最重要的!
- 白話說: 買尿布,真的有「提升」 啤酒的銷量嗎?還是只是因為啤酒本來就很紅(大家都會買)?
- Lift > 1: 真的有提升! 買 A 確實會讓人更想買 B。
- Lift = 1: 沒用。買 A 跟買 B 沒關係,B 本來就這麼紅。
- Lift < 1: 反效果。買 A 的人反而「不愛」買 B。
3. 機率模型:事情發生的「劇本」
自然界很多事情的發生,都剛好符合某些數學「劇本」。
- 均勻分布 (Uniform):
- 劇本: 每個結果的機率都「完全一樣」。
- 例子: 丟一顆公正的骰子(1~6 都是 1/6)。
- 二項式分布 (Binomial):
- 劇本: 只問「成功 / 失敗」兩種結果的。
- 例子: 投籃 10 次(N=10),進 8 次(k=8)的機率是多少?
- 卜瓦松分布 (Poisson):
- 劇本: 算「單位時間/空間內,發生 N 次」的機率。
- 例子: 一家店「平均每小時 10 個客人」,那在「這小時剛好來 15 個」的機率是多少?
- 指數分布 (Exponential):
- 劇本: 卜瓦松的「相反」。算「要等多久」下一個才會來。
- 例子: 一家店「平均每小時 10 個客人」,那「5 分鐘內」下一個客人就來的機率是多少?
- 常態分布 (Normal):
- 劇本: 「鐘形曲線」(貝爾曲線)。
- 白話說: 大自然中「最常見」的劇本。大部分人都很「平均」,只有極少數人是極端值 。
- 例子: 全國身高、體重、考試分數 。
4. 假說檢定:用數據當法官
這是最難的,但用「法庭審判」來記就對了 。
A. 審判的SOP
- 你想證明的事(你的論點): 叫做「對立假說 H1」(例如:這個藥有效!這個人有罪!)。
- 你想推翻的事(無聊的現狀): 叫做「虛無假說 H0」(例如:這個藥沒效。這個人無罪。)。
法庭SOP:
- 先假設 H0 是對的(法官:我先當你是無罪的)。
- 看你拿出的「證據」(數據)。
- 計算 p-value (p值):
- 白話說: 「如果 H0 是真的(他真的無罪),那能看到這麼巧的證據(例如:凶器上有他指紋)的機率有多低?」
- 下判決(你心中要先有一把尺,叫 Alpha (α) 顯著水準,通常是 5% 或 0.05):
- 如果 p < 0.05 (p值很小): 「太巧了吧!如果他是無罪的,發生這鳥事的機率不到 5%!」
- 判決: 證據太強了,不可能是巧合。我「拒絕 H0」(拒絕你無罪的說法)-> 你的論點 (H1) 勝利!
- 如果 p > 0.05 (p值很大): 「嗯...這證據很普通啊,就算他是無罪的,也蠻可能發生的。」
- 判決: 證據不足。我「無法拒絕 H0」(我不能說你無罪,但我沒辦法判你有罪)。
B. 該用哪種「法條」(檢定)?
- Z 檢定 vs. t 檢定:
- 都是用來比「平均數」有沒有差 。
- 考試重點: t 檢定 (t-test) 是最常用的。
- Z 檢定: 你「已知」全體(母體)的標準差。(夢中才會發生,現實中很少用)
- t 檢定: 你「未知」全體的標準差,只能用你手上「樣本」的標準差去猜。(這才是現實!)
- ANOVA (變異數分析):
- 白話說: t 檢定的「多人版」。
- 考試重點: 當你要比較「3 組(或以上)」的平均數時使用。
- 例子: 比較「A 教法、B 教法、C 教法」的學生平均分數有沒有差別 。
- 卡方檢定 (Chi-Square):
- 白話說: 用來看「類別」資料(非數字)有沒有關聯。
- 例子: 檢測「性別」(男/女)跟「看電影的喜好」(A片/B片/C片)有沒有關聯 。
5. Apriori 演算法 (補充)
這是關聯規則的實作方法。
- 白話說: 找出「熱門組合」的「刪去法」。
- SOP:
- 第一輪: 先看「單品」(A, B, C, D, E)。把賣太少(低於 Support 門檻)的先砍掉。例如 C, D 太冷門,砍掉。
- 第二輪: 把剩下的 (A, B, E) 兩兩配對成 (AB, AE, BE)。
- 再砍: 算這三組的 Support,把賣太少的組合砍掉。例如 AB, AE 太冷門,砍掉。
- 結果: 最後剩下 BE。這就是你要找的「最有關聯的熱門組合」。












