信息熵

随机变量的不确定性:
$H(X)=-\sum_i p_i\log p_i$
分布越均匀熵越大,越确定熵越小。

KL 散度与交叉熵

KL 散度度量用分布 $q$ 近似真实分布 $p$ 的“额外代价”:
$D_{\mathrm{KL}}(p,|,q)=\sum_i p_i\log\frac{p_i}{q_i}\ \ge 0$
它不对称、非负,等于零当且仅当 $p=q$。交叉熵 $H(p,q)=H(p)+D_{\mathrm{KL}}(p|q)$,最小化交叉熵 = 最小化 KL 散度。

互信息与信息增益

互信息 $I(X;Y)=H(X)-H(X\mid Y)$ 度量两变量的依赖。决策树用信息增益(划分前后熵的下降)选择分裂特征。

例题

 二分类真实标签 $p=(1,0)$、预测 $q=(0.8,0.2)$,交叉熵 $=-1\cdot\log0.8=0.223$;预测越接近真实,损失越小——这正是分类网络的训练信号。

应用

交叉熵损失是分类任务的标配;KL 散度是变分自编码器 (VAE)、变分推断、知识蒸馏与 t-SNE 的核心;互信息用于特征选择与表示学习(InfoMax)。