相对熵(KL 散度)

用分布 $q$ 近似真实分布 $p$ 的「额外代价」:
$D_{\mathrm{KL}}(p,|,q)=\sum_i p_i\log_2\frac{p_i}{q_i}\ \ge 0$
非负(Gibbs 不等式),等于 $0$ 当且仅当 $p=q$;但不对称,不是真正的距离。

交叉熵

$H(p,q)=-\sum_i p_i\log_2 q_i=H(p)+D_{\mathrm{KL}}(p,|,q)$
最小化交叉熵 = 最小化 KL 散度($H(p)$ 固定)——这正是分类模型的训练目标。

互信息

$I(X;Y)=H(X)-H(X\mid Y)=\sum p(x,y)\log\frac{p(x,y)}{p(x)p(y)}$
度量「知道 $Y$ 后 $X$ 的不确定性减少了多少」,即两变量的依赖强度;独立时 $I=0$。

例题

 真实标签 $p=(1,0)$、预测 $q=(0.7,0.3)$,交叉熵 $=-\log_2 0.7\approx0.51$ bit;预测越准损失越小——分类网络据此学习。

应用

交叉熵损失是分类的标配;KL 散度是变分推断、VAE、知识蒸馏的核心;互信息用于特征选择、表示学习与信道容量的定义(见信道编码篇)。