贝叶斯最优分类器

理论上,选后验概率最大的类别错误率最低:
$\hat y=\arg\max_c P(c\mid\mathbf x)=\arg\max_c P(\mathbf x\mid c)P(c)$
这是所有分类器的“最优上界”,但 $P(\mathbf x\mid c)$ 难估计。

朴素贝叶斯

“朴素”地假设特征在给定类别下条件独立
$P(\mathbf x\mid c)=\prod_{j} P(x_j\mid c)$
于是只需估计一维条件概率,参数少、训练快、对高维(如词袋)特别有效。

拉普拉斯平滑

某特征值在训练集某类中没出现会导致概率为 $0$、连乘归零。加 $1$ 平滑:
$P(x_j\mid c)=\frac{n_{jc}+1}{n_c+V}$
避免零概率、提升稳健性。

例题

 垃圾邮件过滤:统计每个词在“垃圾/正常”中的频率,对新邮件按朴素贝叶斯连乘判定。某新词未见过时,靠平滑给一个小概率而非零。

应用

朴素贝叶斯是文本分类、垃圾邮件、情感分析的经典基线,简单高效;它清晰展示了“先验 × 似然 → 后验”的贝叶斯推理范式,是理解概率式机器学习的入门石。