Naive Bayes 是一種基於貝葉斯定理的概率分類演算法,其核心假設是特徵條件獨立,即假定在給定類別的情況下,各特徵之間相互獨立。雖然這一假設在現實中往往不成立,但Naive Bayes在許多實際應用中表現良好,且算法簡單、計算效率高。
常見的Naive Bayes分類器類型:
- 高斯(Gaussian)Naive Bayes : 適用於連續特徵,假設特徵服從高斯正態分布。
- 多項式(Multinomial)Naive Bayes : 適用於離散計數特徵,如文本中詞頻。
- 伯努利(Bernoulli)Naive Bayes : 適用於二元特徵,如詞是否出現(是/否)。
- 計算速度快,對小樣本數據表現良好。
- 廣泛用於垃圾郵件過濾、文本分類、情感分析等。
- 模型結構簡單,不易過擬合。
缺點:
- 特徵獨立假設過於嚴格,多特徵相關時性能下降。
- 預測概率不一定準確,但分類效果通常不錯。
簡單比喻:
Naive Bayes像是基於每個獨立條件的概率「投票」來決定物件分類,雖過於簡化,卻在多場景中表現良好。
總結:
Naive Bayes是一種基於貝葉斯定理且假設特徵條件獨立的快速概率分類算法,適用於高維、小樣本的分類任務,如文本分類與垃圾郵件過濾。