【資料分析】Junior 資料分析師必備的統計知識 (一) - 描述統計

更新於 發佈於 閱讀時間約 6 分鐘
raw-image

描述統計 (Descriptive Statistics) 是一組用於總結和呈現數據特徵的統計方法,目的是幫助我們快速了解數據的結構與模式,而不需要檢視整個數據集。在數據分析的初期,描述統計經常用來對數據進行初步探索,協助發現問題或確定進一步分析方向。


# 可使用目錄功能快速確認要閱覽的主題


集中趨勢 (Central Tendency)

集中趨勢描述數據集中於某一特定值的趨勢,是數據分佈的核心特徵之一,表示數據的平均水平或集中程度。


平均值 (Mean)

  • 計算方法為將所有值相加並除以值的総數。
  • 優點:能水平地反映數據的共同趨勢。
  • 缺點:容易受異常值影響。


中位數 (Median)

  • 將數據排序後的中間值;如為偶數,取中間兩值的平均。
  • 優點:對異常值不敏感,透明地反映數據集中。


眾數 (Mode)

  • 數據中出現次數最多的值。
  • 優點:適合分析類別數據,如最常見的用戶類型。


集中趨勢的實務應用案例

  1. 銷售分析
    • 利用平均值了解產品的平均銷售額,進一步評估盈利能力。
    • 使用中位數處理含極端高銷售額產品的數據,避免平均值偏差。
  2. 薪資調研
    • 平均值提供整體薪酬水平概覽,適合制定薪酬策略。
    • 中位數避免因少數高薪人群導致數據失真,反映典型員工的薪資水平。
  3. 用戶行為分析
    • 分析眾數以找出最常見的消費金額或產品偏好,設計針對性的促銷方案。
  4. 教育統計
    • 透過中位數評估班級考試成績的整體表現,避免極端值影響評估結果。



分散趨勢指標 (Dispersion)

分散趨勢指標用於衡量數據的離散程度,即數據值如何分散或接近中心值。


全距 (Range)

  • 最大值和最小值之差。
  • 優點:計算簡單,快速對分散性作出初步評估。
  • 缺點:不能反映整體分散情況,容易受異常值影響。


四分位距 (Interquartile Range, IQR)

  • Q3 (75分位數)與 Q1 (25分位數)之差,水平反映數據中間像素的分散。
  • 優點:對異常值不敏感,適合分析正軽偏的數據。


標準差 (Standard Deviation)

  • 表示數據值和平均值之間的平均偏移量,量化分散性。
  • 優點:能水平反映數據大多數平均的距離,具備地方正値性。


分散趨勢指標的實務應用案例

  1. 投資風險評估
    • 使用標準差衡量資產收益的波動性,幫助投資者判斷風險。
    • 使用 IQR 檢測異常波動的交易數據,優化投資策略。
  2. 品質控制
    • 透過變異數分析產品生產過程的穩定性,確保一致性。
    • 全距用於快速檢查樣品中是否有超出容許範圍的數據。
  3. 顧客行為分析
    • 用標準差分析顧客購買金額的波動性,幫助區分穩定顧客和潛在大客戶。
    • 利用 IQR 檢查異常的高消費或低消費行為,制定差異化營銷策略。
  4. 學生成績評估
    • 用標準差分析考試成績的離散程度,了解班級整體學習效果。
    • 利用全距識別最高分與最低分之間的差距,以定位學生的學習差異。



數據分佈 (Distribution)

數據分佈(Distribution) 是指一組數據在其範圍內的排列方式,反映數據值出現的頻率和模式。理解數據分佈有助於我們全面掌握數據特性,並為選擇適合的統計模型或算法提供基礎。


常態分佈 (Normal Distribution)

  • 形狀:呈鐘形曲線,對稱且以平均值為中心。
raw-image
  • 特性
    • 平均值、中位數和眾數相等。
    • 數據多數集中在平均值附近,距離越遠,出現的概率越低。
    • 在一個常態分佈中,68%的數據落在平均值的±1個標準差內,95%的數據落在±2個標準差內,99%的數據落在±3個標準差內。
  • 應用實例
    • 測量數據(如身高、血壓)通常符合常態分佈。
    • 用於假設檢定和參數估計的前提。


均勻分佈 (Uniform Distribution)

  • 形狀:數據均勻分佈,每個值出現的概率相等。
raw-image
  • 特性
    • 沒有明顯的集中趨勢,所有區間內的值分佈均勻。
  • 應用實例
    • 模擬隨機現象,例如骰子投擲的結果或隨機分配抽樣。


偏態分佈 (Skewed Distribution)

偏態反映數據分佈的對稱性。

raw-image
  • 正偏分佈 (Right-Skewed)
    • 分佈的右尾較長,表示高值數據較多,但出現頻率低。
    • 應用實例:收入分佈(少數人收入極高)。
  • 負偏分佈 (Left-Skewed)
    • 分佈的左尾較長,表示低值數據較多,但出現頻率低。
    • 應用實例:產品退貨數據(大部分退貨量很少)。


多峯分佈 (Multimodal Distribution)

  • 形狀:數據中存在多個峰值(眾數)。
raw-image
  • 應用實例
    • 顧客分層(如不同年齡段的購買行為)。
    • 銷售數據中反映多個銷售旺季。


數據分佈的實務應用

  1. 模型選擇與假設檢定
    • 大部分統計方法(如 t 檢定)假設數據符合常態分佈。如果數據不符合,可能需要進行數據轉換(如對數轉換)或使用非參數方法。
  2. 異常值檢測
    • 分佈的形狀可以幫助發現異常值。例如,偏態分佈中可能存在極端高值或低值,影響模型的準確性。
  3. 商業應用案例
    • 在電子商務中,了解顧客的購買金額分佈有助於設計分層促銷策略。
    • 在運營分析中,檢測伺服器請求的到達時間是否符合預期的指數分佈,以評估伺服器負載。



在 Python 中進行數據視覺化

在 Python 中,我們可以利用數據視覺化工具來直觀地確認描述性統計特徵,例如直方圖、箱線圖、散佈圖等等方式來確認資料的分佈狀況,詳細執行方法可以參考以下連結。


參考連結

【資料分析】python資料視覺化基礎操作語法彙整

【資料分析】Seaborn 常用視覺化基礎操作語法彙整

留言
avatar-img
留言分享你的想法!
avatar-img
JayRay 的沙龍
12會員
23內容數
JayRay 的沙龍的其他內容
2025/01/21
本文章提供深度學習(Deep Learning)、深度神經網絡(DNN)、卷積神經網絡(CNN)和遞歸神經網絡(RNN)的簡介,並包含它們的定義、應用場景、基本結構、工作原理、優缺點和Python範例。
Thumbnail
2025/01/21
本文章提供深度學習(Deep Learning)、深度神經網絡(DNN)、卷積神經網絡(CNN)和遞歸神經網絡(RNN)的簡介,並包含它們的定義、應用場景、基本結構、工作原理、優缺點和Python範例。
Thumbnail
2024/12/25
Naive Bayes是一種基於貝葉斯定理的機器學習分類演算法,適用於文本分類、垃圾郵件檢測及情感分析等任務。雖然假設特徵之間相互獨立,這在現實中不常成立,但其高效計算與穩定性使得在小數據集及高維度特徵空間中表現良好。
Thumbnail
2024/12/25
Naive Bayes是一種基於貝葉斯定理的機器學習分類演算法,適用於文本分類、垃圾郵件檢測及情感分析等任務。雖然假設特徵之間相互獨立,這在現實中不常成立,但其高效計算與穩定性使得在小數據集及高維度特徵空間中表現良好。
Thumbnail
2024/11/29
數據洩漏是在機器學習和數據分析中,因不當使用資料而造成的模型性能評估錯誤。這篇文章探討數據洩漏的常見形式及其對模型可靠性的影響,並提供防範措施,如嚴格劃分數據集、僅對訓練集進行預處理和使用交叉驗證。瞭解這些概念有助於構建更穩健的數據驅動模型。
Thumbnail
2024/11/29
數據洩漏是在機器學習和數據分析中,因不當使用資料而造成的模型性能評估錯誤。這篇文章探討數據洩漏的常見形式及其對模型可靠性的影響,並提供防範措施,如嚴格劃分數據集、僅對訓練集進行預處理和使用交叉驗證。瞭解這些概念有助於構建更穩健的數據驅動模型。
Thumbnail
看更多
你可能也想看
Thumbnail
在統計學、數據科學和商業分析中,預測技術是不可或缺的工具。它們幫助我們利用現有的數據,推測未來的可能走向。以下介紹 10 種常見的預測方法及其特點,幫助你選擇最適合的工具來解決問題: 1. 趨勢分析(Trend Analysis) • 概念:通過分析歷史數據,找出長期的模式或趨勢。 •
Thumbnail
在統計學、數據科學和商業分析中,預測技術是不可或缺的工具。它們幫助我們利用現有的數據,推測未來的可能走向。以下介紹 10 種常見的預測方法及其特點,幫助你選擇最適合的工具來解決問題: 1. 趨勢分析(Trend Analysis) • 概念:通過分析歷史數據,找出長期的模式或趨勢。 •
Thumbnail
介紹均線從數學上的本質、均線的種類,以及均線的延伸常見技術指標。另外會附上 Python 的實現算法(著重 SMA & EMA)。但不會介紹使用策略。 「取平均」是做統計分析裡面非常基礎、很早學到、常用的做法,而均線(Moving Average)也是技術指標當中最常被當第一個學習的指標。
Thumbnail
介紹均線從數學上的本質、均線的種類,以及均線的延伸常見技術指標。另外會附上 Python 的實現算法(著重 SMA & EMA)。但不會介紹使用策略。 「取平均」是做統計分析裡面非常基礎、很早學到、常用的做法,而均線(Moving Average)也是技術指標當中最常被當第一個學習的指標。
Thumbnail
如果你在工作中常常需要透過數字和簡報說故事,非常適合閱讀這本書,別以為圖表很簡單其實背後暗藏許多玄機,好的圖表和簡報能讓人5秒內看懂你想說的故事。這篇文章會和大家分享本書最精華的部分,讓大家能快速了解繪製圖表的核心重點。
Thumbnail
如果你在工作中常常需要透過數字和簡報說故事,非常適合閱讀這本書,別以為圖表很簡單其實背後暗藏許多玄機,好的圖表和簡報能讓人5秒內看懂你想說的故事。這篇文章會和大家分享本書最精華的部分,讓大家能快速了解繪製圖表的核心重點。
Thumbnail
上一篇我們有介紹如何爬取Goodinfo的資訊並統計分析,還沒閱讀的朋友建議先行閱讀,再進入此篇章會比較容易上手唷,傳送門如下: 🚪【Google Colab系列】以Goodinfo!為例,統計一段時間內的最高、最低殖利率 為什麼要做資料視覺化? 相信圖文甚至影音箱對於文字來說更為吸引我們進
Thumbnail
上一篇我們有介紹如何爬取Goodinfo的資訊並統計分析,還沒閱讀的朋友建議先行閱讀,再進入此篇章會比較容易上手唷,傳送門如下: 🚪【Google Colab系列】以Goodinfo!為例,統計一段時間內的最高、最低殖利率 為什麼要做資料視覺化? 相信圖文甚至影音箱對於文字來說更為吸引我們進
Thumbnail
承續前篇內容,另外使用第二種隨機性檢定方式,來判斷價格是否處於盤整盤,假若為盤整盤,價格應集中在均線位置附近或是前後相鄰的數值差異很小,數據計算方法如下
Thumbnail
承續前篇內容,另外使用第二種隨機性檢定方式,來判斷價格是否處於盤整盤,假若為盤整盤,價格應集中在均線位置附近或是前後相鄰的數值差異很小,數據計算方法如下
Thumbnail
價格數據可透過隨機性檢定方式,以判斷行情是否在盤整盤狀態。假若行情為盤整盤,前後價格應該偏向漲跌互見的形式;反之若為趨勢盤,則前後價格應該偏向漲、漲、漲與跌、跌、跌的連續形式。 統計方法如下 : 假設有一系列的觀察值X(1)、X(2)、...、X(n),系列相關係數與統計檢定量定義如下
Thumbnail
價格數據可透過隨機性檢定方式,以判斷行情是否在盤整盤狀態。假若行情為盤整盤,前後價格應該偏向漲跌互見的形式;反之若為趨勢盤,則前後價格應該偏向漲、漲、漲與跌、跌、跌的連續形式。 統計方法如下 : 假設有一系列的觀察值X(1)、X(2)、...、X(n),系列相關係數與統計檢定量定義如下
Thumbnail
你覺得自己懂得如何使用視覺化圖表嗎?資料隨手可得、工具使用方便,人人都可以做出一張圖表,但沒有讓溝通變得更輕鬆,反而產生了更多問題;手邊的資料愈多,卻愈難去蕪存菁、展現出關鍵的訊息。在這篇文章中,我將和你分享圖表選擇與使用的聰明對策!
Thumbnail
你覺得自己懂得如何使用視覺化圖表嗎?資料隨手可得、工具使用方便,人人都可以做出一張圖表,但沒有讓溝通變得更輕鬆,反而產生了更多問題;手邊的資料愈多,卻愈難去蕪存菁、展現出關鍵的訊息。在這篇文章中,我將和你分享圖表選擇與使用的聰明對策!
Thumbnail
今天將進入Matplotlib的最終教學,今天就來介紹除了我們常見的折線圖、圓餅圖、長條圖外,我們也相當常用在金融數據分析上的圖形,也就是「散點圖」,以及再教如何畫出子圖表,這些圖表能讓你報告起來不只更加專業,也讓閱覽者可以更加的了解你的研究內容唷!!
Thumbnail
今天將進入Matplotlib的最終教學,今天就來介紹除了我們常見的折線圖、圓餅圖、長條圖外,我們也相當常用在金融數據分析上的圖形,也就是「散點圖」,以及再教如何畫出子圖表,這些圖表能讓你報告起來不只更加專業,也讓閱覽者可以更加的了解你的研究內容唷!!
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News