評估人工智慧(AI)模型的公平性指標主要用來衡量模型在不同人口群體或個體之間是否表現出平等對待,避免偏見和歧視。這些指標可分為群體公平性指標、個體公平性指標,以及基於過程和結果的公平性指標。
主要公平性指標類型:
1. 群體公平性指標• 統計均等性(Demographic Parity) 衡量不同群體獲得正面結果(如被錄取、貸款批准)的概率是否相同。
• 均等機會(Equal Opportunity) 要求不同群體的真陽性率(TPR)相等,確保合格的個體獲得相同機會。
• 均等錯誤率(Equalized Odds) 要求各群體的真陽性率和假陽性率均相同。
• 差異影響比率(Disparate Impact Ratio) 比較受保護群體和非受保護群體正面結果率,通常採用“80%規則”。
2. 個體公平指標
• 一致性(Consistency) 對於特徵相似的個體,應該給出相似的決策結果。
• 反事實公平(Counterfactual Fairness) 若唯一的差異是敏感特徵(如性別、種族),則模型應該給出相同輸出。
3. 基於過程的公平性
• 強調決策和演算法設計過程本身的公平性和透明性。
4. 基於結果的公平性
• 關注模型最終給出決策結果的公平分配。
其他相關公平性評估指標與考量:
• 情緒公平性(Sentiment Fairness):語言生成模型是否對不同群體表達等量正負面情緒。
• 偏見和刻板印象指標:評估模型是否強化社會偏見與刻板印象。
• 可解釋性指標(Explainability):透過LIME、SHAP等方法解釋模型決策,增強透明度與信任。
• 公平性與效能平衡:公平性指標往往需與模型預測準確性權衡。
簡單比喻:
公平性指標就像是體檢報告中的不同檢驗項目,幫助我們知道AI模型是否在對待不同群體時公平成正。
總結:
人工智慧模型的公平性指標涵蓋統計均等性、均等機會、均等錯誤率、差異影響比率及個體公平等多方面,這些指標幫助識別和減少模型偏見,促進公平與負責任的AI應用。