Bootstrap 是一種統計和機器學習中常用的重抽樣技術,通過從原始數據集中「有放回地」多次抽取樣本,生成多組新的訓練數據集(稱為Bootstrap樣本),用以估計統計量的分布,提升模型穩定性和泛化能力。
Bootstrap的主要特點:
- 有放回抽樣**:從原數據集中抽取樣本,抽取後的樣本可被再次選中。
- 維持樣本大小**:每個Bootstrap樣本大小通常與原始數據集相同。
- 多次重複**:重複抽取多次生成多個Bootstrap樣本,從中估計統計量(例如均值、方差)分布。
- 袋裝法(Bagging)**:利用Bootstrap多次抽樣訓練多個基學習器,最終集成預測,提高模型穩定性與精度,減少過擬合。
- 估計模型性能**:使用Bootstrap樣本估計模型的準確率、置信區間,尤其在數據有限時提供更可靠的性能評估。
- 統計推斷**:不依賴參數假設,通過重抽樣估計統計量的偏差和變異。
簡單比喻:
Bootstrap就像從一袋球中隨機取球放回多次,再從多個取樣結果來估計整袋球的特性。
總結:
Bootstrap是一種透過有放回抽樣生成多個樣本子集的重抽樣技術,廣泛用於機器學習中提升模型穩定性、估計性能指標以及進行統計推斷。