分層抽樣(Stratified Sampling)

更新 發佈閱讀 2 分鐘

分層抽樣(Stratified Sampling)是一種統計抽樣方法,將總體按特定特徵或規則劃分為若干個同質的子群組(稱為層),然後對每個層內獨立進行隨機抽樣。這種方法結合了分組與隨機抽樣的優點,提高了樣本的代表性和估計的精度。

分層抽樣的原理與步驟

  1. 劃分層次:根據變量(如年齡、性別、地區)將總體劃分成互不重疊、內部相對均質的幾個層。
  2. 分層抽樣:在每個層內使用簡單隨機抽樣或系統抽樣抽取樣本。
  3. 合併樣本:將各層抽取的樣本綜合,即成為整體樣本。

分層抽樣的特點

  • 提高代表性:保障不同層的特徵在樣本中有足夠比例,避免樣本偏倚。
  • 減少變異性:各層內部均質,能減少抽樣誤差。
  • 適合異質總體:當總體內部分組間差異較大時,分層抽樣更適合。

分層樣本數分配

  • 比例分配:根據各層在總體中的比例分配樣本數。
  • 最優(奈曼)分配:考慮層內變異和大小,分配樣本數最大限度降低變異。
  • 非比例分配:針對小且重要的層適當增加樣本數,提升調查的精度。

應用場景

  • 政府人口普查、社會調查
  • 市場調研和意見採集
  • 醫學臨床研研究分層分析

簡言之,分層抽樣通過將總體劃分為層,確保各層均被充分代表,提高抽樣結果的準確性和可靠性,特別適合於異質性較大的人口或調查對象。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
21會員
495內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/09/10
robots.txt協議是一種網站用來指示網路爬蟲(如搜尋引擎機器人)哪些頁面可以爬取、哪些禁止訪問的標準協議。它通過在網站根目錄放置一個名為「robots.txt」的純文字文件,控制爬蟲的爬取行為,幫助網站控制流量和保護私有內容,同時優化搜尋引擎的爬取效率。 robots.txt的主要功能 限
2025/09/10
robots.txt協議是一種網站用來指示網路爬蟲(如搜尋引擎機器人)哪些頁面可以爬取、哪些禁止訪問的標準協議。它通過在網站根目錄放置一個名為「robots.txt」的純文字文件,控制爬蟲的爬取行為,幫助網站控制流量和保護私有內容,同時優化搜尋引擎的爬取效率。 robots.txt的主要功能 限
2025/09/10
PR曲線(Precision-Recall Curve,精確率-召回率曲線)是一種用來評估分類模型性能,特別是二分類任務中,通過不同分類閾值下的精確率(Precision)與召回率(Recall)的變化關係繪製而成的曲線。 PR曲線定義: 橫軸(X軸)是召回率(Recall),表示模型在所有實際
2025/09/10
PR曲線(Precision-Recall Curve,精確率-召回率曲線)是一種用來評估分類模型性能,特別是二分類任務中,通過不同分類閾值下的精確率(Precision)與召回率(Recall)的變化關係繪製而成的曲線。 PR曲線定義: 橫軸(X軸)是召回率(Recall),表示模型在所有實際
2025/09/10
線性回歸的基本假設是指在建立線性回歸模型時對數據和誤差項提出的前提條件,這些假設保證了模型的合理性和統計推論的有效性。主要有以下幾個核心假設: 1. 線性關係 應變數(Y)和自變數(X)之間存在線性關係,即模型形式可表達為 2. 誤差項期望為零 誤差項的期望值為零,表示誤差沒有系統性的偏差
2025/09/10
線性回歸的基本假設是指在建立線性回歸模型時對數據和誤差項提出的前提條件,這些假設保證了模型的合理性和統計推論的有效性。主要有以下幾個核心假設: 1. 線性關係 應變數(Y)和自變數(X)之間存在線性關係,即模型形式可表達為 2. 誤差項期望為零 誤差項的期望值為零,表示誤差沒有系統性的偏差
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在進行多層次線性模型(MLM)當中,有時候我們不只會加入層次1的預測變項。我們也會想加入層次2預測變項。本文將介紹加入層次2預測變項的各種模型,並解釋其公式和R語言操作方法。因為內容比較多,所以篇幅比較長。 多層次線性模型(MLM),截距是表示所有學校的平均值。斜率是指模型中自變量的係數,表
Thumbnail
在進行多層次線性模型(MLM)當中,有時候我們不只會加入層次1的預測變項。我們也會想加入層次2預測變項。本文將介紹加入層次2預測變項的各種模型,並解釋其公式和R語言操作方法。因為內容比較多,所以篇幅比較長。 多層次線性模型(MLM),截距是表示所有學校的平均值。斜率是指模型中自變量的係數,表
Thumbnail
有時候在其他檔案轉換成SPSS檔時,可能出現在一個變項內,以特定符號將不同數字分開的(如下圖,第三行4,7,8),這時無法用SPSS進行有效分析。本文將說明如何使用SPSS將特定符號分開的數字轉換成不同變項,光看文字可能太過抽象,請看圖文教學。
Thumbnail
有時候在其他檔案轉換成SPSS檔時,可能出現在一個變項內,以特定符號將不同數字分開的(如下圖,第三行4,7,8),這時無法用SPSS進行有效分析。本文將說明如何使用SPSS將特定符號分開的數字轉換成不同變項,光看文字可能太過抽象,請看圖文教學。
Thumbnail
本文將介紹如何用Python繪製群組直條圖。
Thumbnail
本文將介紹如何用Python繪製群組直條圖。
Thumbnail
這篇文章介紹如何使用Python整理資料成百分比資料以及繪製百分比堆疊直條圖。
Thumbnail
這篇文章介紹如何使用Python整理資料成百分比資料以及繪製百分比堆疊直條圖。
Thumbnail
在上一篇中,我們在模型探討隨機截距交叉延宕在Extension 2中,可以使用的分類變量進行Multiple group分析。接下來,擴展 RI-CLPM 的另一種方法是為每個使用多個指標測量,本文將簡介兩種Multiple indicators模型。
Thumbnail
在上一篇中,我們在模型探討隨機截距交叉延宕在Extension 2中,可以使用的分類變量進行Multiple group分析。接下來,擴展 RI-CLPM 的另一種方法是為每個使用多個指標測量,本文將簡介兩種Multiple indicators模型。
Thumbnail
本文會利用sklearn引入breast_cancer datasets來訓練,在處理數據的部份,特徵工程用兩種方式去做處理,分別是特徵選取與特徵萃取的方式去做比較。 特徵選取的方法中,使用了KNN 分類器來選出最重要的兩個特徵 特徵萃取的方法中,使用了PCA降維
Thumbnail
本文會利用sklearn引入breast_cancer datasets來訓練,在處理數據的部份,特徵工程用兩種方式去做處理,分別是特徵選取與特徵萃取的方式去做比較。 特徵選取的方法中,使用了KNN 分類器來選出最重要的兩個特徵 特徵萃取的方法中,使用了PCA降維
Thumbnail
如何計算某欄的平均數? 如何計算多個欄位的平均數? 如果想計算不同分組的平均數? 如何用Python計算某欄平均數 利用agg計算平均數 利用groupby建立分組,再用agg計算平均數
Thumbnail
如何計算某欄的平均數? 如何計算多個欄位的平均數? 如果想計算不同分組的平均數? 如何用Python計算某欄平均數 利用agg計算平均數 利用groupby建立分組,再用agg計算平均數
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News