在醫學、公共衛生或社會科學研究中,我們常常想回答這樣的問題:
「A 治療是否比 B 治療更有效?」「接受政策補助的學生是否比未接受補助的學生有更好的表現?」
理想上,我們會用隨機分派(Randomization)的方式設計研究,把受試者隨機分到不同的處置組別,這樣就能保證兩組在基線特徵上平均相同。然而,在現實世界中,隨機分派常常不可行:
- 研究資料是回溯性收集的,根本沒有辦法控制分派
- 在倫理上不能隨機分派,例如讓一部分病人不能接受新藥
- 成本或時間限制,無法進行大規模隨機試驗
在這種情況下,我們會遇到一個關鍵問題:
不同組別的受試者在基線特徵上常常差異很大,導致比較結果有偏差。
這時候,傾向分數(Propensity Score)就派上用場了。
一、什麼是傾向分數?
傾向分數(Propensity Score)是 Rosenbaum 和 Rubin 在 1983 年提出的概念,定義為:
在給定所有觀測到的協變數(covariates)的條件下,受試者接受某處置的機率。
換句話說,傾向分數是用來量化每個人「原本就有多大機率會接受某個治療或介入」。
計算方法
最常見的做法是用邏輯斯迴歸(Logistic Regression):

得到每個人的傾向分數後,我們就能用它進行配對、分層或加權,在統計上模擬「隨機分派」的效果。
二、傾向分數的使用時機
傾向分數主要用於觀察性研究(Observational Study),尤其是當資料不是隨機分派時。
1. 醫學研究
例如想比較兩種手術對糖尿病患者的死亡率影響,但實際上接受手術的病人通常年齡較輕、身體狀況較好。
- 如果直接比較死亡率,結果會高估手術效果
- 用傾向分數可以找到「基線特徵相似」的患者進行配對,減少混雜偏差
2. 公共衛生政策
想評估某個補助計畫對特定人群的健康影響,但實際上願意參加補助計畫的人,往往收入較低、教育程度較低。
- 如果直接比較結果,可能會混入社經因素的影響
- 傾向分數可以讓比較對象在基線特徵上更公平
3. 教育與社會科學
例如想研究「小班制」是否能提升學生成績,但家長通常會主動把表現較好的孩子送進小班制。
- 傾向分數可以幫助找到「原本程度相似」的學生進行比較
4. 不適用的情況
- 樣本量過小,無法建立穩定的傾向分數模型
- 缺少關鍵的混雜變數,導致模型失真
- 資料本身是隨機分派設計,不需要額外平衡
三、傾向分數 vs 傳統抽樣方法
很多人會把傾向分數和傳統抽樣混在一起,但它們解決的問題完全不同。

四、總結
傾向分數不是抽樣方法,而是一種在觀察性研究中模擬隨機化的技巧。
當研究設計無法隨機分派時,它可以:
- 透過模型計算每個人接受處置的機率
- 找到基線特徵相似的個體進行比較
- 有效減少混雜偏差,讓結果更接近因果推論
然而,傾向分數不是萬靈丹,它無法處理未觀測到的混雜因子,也需要足夠的樣本量與完整的資料支持。
如果你在做觀察性研究,傾向分數是一個值得學習與應用的重要工具;
但如果你的目的是設計抽樣調查,請回到傳統的抽樣理論。
















