iPAS_AI應用規劃師_中級(「統計方法」筆記分享)

更新 發佈閱讀 10 分鐘

11/8考試要到了,但統計這個單元對於我們這種統計通通還給老師的人來說,真的是有夠ooxx的難也,我用AI做了一個好理解的版本,分享給有需要的人,讓我們一起準備吧!!

🧠 L22 大數據處理分析與應用-數學與統計方法

課程內容分成五大主題:

  1. 描述性統計: 拿到一堆數字(資料)時,怎麼跟別人「一句話」講完重點。
  2. 相關性 vs. 關聯規則: 「身高&體重」和「尿布&啤酒」有什麼不一樣。
  3. 機率模型: 事情發生有哪些固定的「SOP」或「劇本」。
  4. 假說檢定: 怎麼用數據在法庭上當法官,證明你是對的。
  5. Apriori 演算法: 找出「尿布&啤酒」的快速方法。


1. 描述性統計:搞懂你手上的資料


想像一下你手上有全班 100 人的身高和體重,你總不能把 100 個數字都念出來。你需要「摘要」。

A. 找「中心點」(最能代表大家的值) 


  • 平均數 (Mean):
    • 白話說: 把所有人的錢掏出來,然後「平分」給大家。
    • 考試重點: 它的缺點是「很不公平」,很容易被極端值(例如:郭台銘)拉高,變得沒有代表性 。
  • 中位數 (Median):
    • 白話說: 把所有人從最窮排到最富,站在「正中間」那個人。
    • 考試重點: 它不怕極端值!在貧富差距大(資料很歪)的時候,看中位數才準 。
  • 眾數 (Mode):
    • 白話說: 「撞衫」撞最多的那個數字,出現最多次的。
    • 考試重點: 它的缺點是可能「沒有」(大家都穿不一樣)或「有很多個」(好幾組人撞衫)。


B. 看「分散程度」(大家是差不多,還是差很多?)


光說「平均身高 170」還不夠,是一群 170 的人?還是一個 140 和一個 200?

  • 全距 (Range):
    • 白話說: 全班最高的 - 最矮的。
    • 考試重點: 很粗糙,只看了兩個最極端的人,不準 。
  • 四分位距 (IQR) & 箱形圖 (Box Plot):
    • 白話說: 把所有人分成「前 25%」、「中 50%」、「後 25%」三群。
    • 考試重點: 中間那 50% 人(Q1 到 Q3)住的那個「箱子」,就是 IQR 。
    • 記憶點: 箱子越扁,代表大家越集中(貧富差距小);箱子越胖,代表大家越分散(貧富差距大)。
  • 標準差 (Standard Deviation):
    • 白話說: 「平均」來說,大家離「平均值」有多遠 。
    • 考試重點: 這是最重要、最常用的分散指標。
    • 記憶點: 標準差小 = 大家都乖乖在平均數旁邊(很集中);標準差大 = 大家都亂跑(很分散)。


C. 描述「類別」資料(非數字的資料)


如果資料是「男、男、女、女」,或是「紅、藍、紅、綠」,就不能算平均數。這時我們要看的是「純不純」。


  • 吉尼不純度 (Gini Impurity):
    • 白話說: 測量這袋資料「有多亂」。
    • Gini = 0 (最純): 一整袋 M&M 都是紅色的 。
    • Gini 越大 (越不純): M&M 顏色很雜亂。
    • Gini 最大值: 每種顏色的 M&M「數量剛好一樣多」時,最不純 。


2. 相關性 vs. 關聯規則:兩種「有關」


「有關」分成兩種,考試很愛考它們的差別。


A. 相關係數 (Correlation):A 變多,B 會跟著變多(或變少)嗎?


  • 白話說: 看兩個「數字」變數的「連動關係」。例如:身高(變高) -> 體重(跟著變重)。
  • Pearson (皮爾森) R:
    • 考試重點: 只能抓「直線關係」。
    • -1 (完美負相關 \ ) 到 +1 (完美正相關 / )。 0 代表「沒有直線關係」。
    • 缺點: 如果關係是「U 型」的(非線性),它會抓不到,跟你說R=0(無關)。
  • Spearman (斯皮爾曼) rho:
    • 白話說: 它是 Pearson 的「升級版」。
    • 考試重點: 它先不管數字多少,只看「排名」。A 排名上升時,B 的排名是不是也跟著上升?這樣就能抓到「曲線關係」(只要趨勢一致就好)。


B. 關聯規則 (Association Rule):誰會跟誰「一起被買」?


  • 白話說: 這不是看數字連動,而是看「一起出現」。最經典的「尿布與啤酒」。
  • Support (支援度):
    • 白話說: 「尿布 + 啤酒」這個組合,在所有訂單裡佔了幾 %?(看它紅不紅)
  • Confidence (信賴度):
    • 白話說: 在「有買尿布」的人當中,有多少比例「也買了」啤酒?
  • Lift (提升度):
    • 考試重點: 這才是最重要的
    • 白話說: 買尿布,真的有「提升」 啤酒的銷量嗎?還是只是因為啤酒本來就很紅(大家都會買)?
    • Lift > 1: 真的有提升! 買 A 確實會讓人更想買 B。
    • Lift = 1: 沒用。買 A 跟買 B 沒關係,B 本來就這麼紅。
    • Lift < 1: 反效果。買 A 的人反而「不愛」買 B。


3. 機率模型:事情發生的「劇本」


自然界很多事情的發生,都剛好符合某些數學「劇本」。

  • 均勻分布 (Uniform):
    • 劇本: 每個結果的機率都「完全一樣」。
    • 例子: 丟一顆公正的骰子(1~6 都是 1/6)。
  • 二項式分布 (Binomial):
    • 劇本: 只問「成功 / 失敗」兩種結果的。
    • 例子: 投籃 10 次(N=10),進 8 次(k=8)的機率是多少?
  • 卜瓦松分布 (Poisson):
    • 劇本: 算「單位時間/空間內,發生 N 次」的機率。
    • 例子: 一家店「平均每小時 10 個客人」,那在「這小時剛好來 15 個」的機率是多少?
  • 指數分布 (Exponential):
    • 劇本: 卜瓦松的「相反」。算「要等多久」下一個才會來。
    • 例子: 一家店「平均每小時 10 個客人」,那「5 分鐘內」下一個客人就來的機率是多少?
  • 常態分布 (Normal):
    • 劇本: 「鐘形曲線」(貝爾曲線)。
    • 白話說: 大自然中「最常見」的劇本。大部分人都很「平均」,只有極少數人是極端值 。
    • 例子: 全國身高、體重、考試分數 。


4. 假說檢定:用數據當法官


這是最難的,但用「法庭審判」來記就對了 。



A. 審判的SOP


  • 你想證明的事(你的論點): 叫做「對立假說 H1」(例如:這個藥有效!這個人有罪!)。
  • 你想推翻的事(無聊的現狀): 叫做「虛無假說 H0」(例如:這個藥沒效。這個人無罪。)。


法庭SOP:


  1. 先假設 H0 是對的(法官:我先當你是無罪的)。
  2. 看你拿出的「證據」(數據)
  3. 計算 p-value (p值)
    • 白話說: 「如果 H0 是真的(他真的無罪),那能看到這麼巧的證據(例如:凶器上有他指紋)的機率有多低?
  4. 下判決(你心中要先有一把尺,叫 Alpha (α) 顯著水準,通常是 5% 或 0.05):
    • 如果 p < 0.05 (p值很小): 「太巧了吧!如果他是無罪的,發生這鳥事的機率不到 5%!」
    • 判決: 證據太強了,不可能是巧合。我「拒絕 H0」(拒絕你無罪的說法)-> 你的論點 (H1) 勝利!
    • 如果 p > 0.05 (p值很大): 「嗯...這證據很普通啊,就算他是無罪的,也蠻可能發生的。」
    • 判決: 證據不足。我「無法拒絕 H0」(我不能說你無罪,但我沒辦法判你有罪)。

B. 該用哪種「法條」(檢定)? 


  • Z 檢定 vs. t 檢定:
    • 都是用來比「平均數」有沒有差 。
    • 考試重點: t 檢定 (t-test) 是最常用的。
    • Z 檢定: 你「已知」全體(母體)的標準差。(夢中才會發生,現實中很少用)
    • t 檢定: 你「未知」全體的標準差,只能用你手上「樣本」的標準差去猜。(這才是現實!)
  • ANOVA (變異數分析):
    • 白話說: t 檢定的「多人版」。
    • 考試重點: 當你要比較「3 組(或以上)」的平均數時使用。
    • 例子: 比較「A 教法、B 教法、C 教法」的學生平均分數有沒有差別 。
  • 卡方檢定 (Chi-Square):
    • 白話說: 用來看「類別」資料(非數字)有沒有關聯。
    • 例子: 檢測「性別」(男/女)跟「看電影的喜好」(A片/B片/C片)有沒有關聯 。


5. Apriori 演算法 (補充)


這是關聯規則的實作方法。


  • 白話說: 找出「熱門組合」的「刪去法」。
  • SOP:
    1. 第一輪: 先看「單品」(A, B, C, D, E)。把賣太少(低於 Support 門檻)的先砍掉。例如 C, D 太冷門,砍掉。 
    2. 第二輪: 把剩下的 (A, B, E) 兩兩配對成 (AB, AE, BE)。
    3. 再砍: 算這三組的 Support,把賣太少的組合砍掉。例如 AB, AE 太冷門,砍掉。 
    4. 結果: 最後剩下 BE。這就是你要找的「最有關聯的熱門組合」。


留言
avatar-img
留言分享你的想法!
avatar-img
光子編輯部
0會員
16內容數
品牌行銷企劃 | AI工具玩家 | SEO策劃 🚀 分享AI高效工具 💡 用光速找到好點子 💼 一起提早下班,享受美好人參!! 📥 合作洽談 : zoe.yu42@icloud.com
你可能也想看
Thumbnail
雙11於許多人而言,不只是單純的折扣狂歡,更是行事曆裡預定的,對美好生活的憧憬。 錢錢沒有不見,它變成了快樂,跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子! 這次格編突擊辦公室,也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕,「加入購物車」的瞬間,藏著哪些靈感,或是對美好生活的想像?
Thumbnail
雙11於許多人而言,不只是單純的折扣狂歡,更是行事曆裡預定的,對美好生活的憧憬。 錢錢沒有不見,它變成了快樂,跟讓臥房、辦公桌、每天早晨的咖啡香升級的樣子! 這次格編突擊辦公室,也邀請 vocus「野格團」創作者分享掀開蝦皮購物車的簾幕,「加入購物車」的瞬間,藏著哪些靈感,或是對美好生活的想像?
Thumbnail
高中數學主題練習—配方法
Thumbnail
高中數學主題練習—配方法
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
Thumbnail
終於要開始講統計檢定的實作部分了。因為是舉實例所以滿長的。 為了讓順序比較恰當,這篇比較晚發的文章被設定成假設檢定後的下一篇。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News