信息论基础

信息熵

随机变量的不确定性：
$H(X)=-\sum_i p_i\log p_i$
分布越均匀熵越大，越确定熵越小。

KL 散度与交叉熵

KL 散度度量用分布 $q$ 近似真实分布 $p$ 的“额外代价”：
$D_{\mathrm{KL}}(p,|,q)=\sum_i p_i\log\frac{p_i}{q_i}\ \ge 0$
它不对称、非负，等于零当且仅当 $p=q$。交叉熵 $H(p,q)=H(p)+D_{\mathrm{KL}}(p|q)$，最小化交叉熵 = 最小化 KL 散度。

互信息与信息增益

互信息 $I(X;Y)=H(X)-H(X\mid Y)$ 度量两变量的依赖。决策树用信息增益（划分前后熵的下降）选择分裂特征。

例题

例　二分类真实标签 $p=(1,0)$、预测 $q=(0.8,0.2)$，交叉熵 $=-1\cdot\log0.8=0.223$；预测越接近真实，损失越小——这正是分类网络的训练信号。

应用

交叉熵损失是分类任务的标配；KL 散度是变分自编码器 (VAE)、变分推断、知识蒸馏与 t-SNE 的核心；互信息用于特征选择与表示学习（InfoMax）。

信息熵

KL 散度与交叉熵

互信息与信息增益

例题

应用

评论 (0)