🎓 学习中心 ← 数学课堂

登录注册 RSS

专题编码与信息论信息度量互信息

互信息、相对熵与交叉熵

分布间的距离与变量间的依赖

数

数学课堂 2026年1月6日 👁 1 次浏览

相对熵（KL 散度）

用分布 $q$ 近似真实分布 $p$ 的「额外代价」：
$D_{\mathrm{KL}}(p,|,q)=\sum_i p_i\log_2\frac{p_i}{q_i}\ \ge 0$
非负（Gibbs 不等式），等于 $0$ 当且仅当 $p=q$；但不对称，不是真正的距离。

交叉熵

$H(p,q)=-\sum_i p_i\log_2 q_i=H(p)+D_{\mathrm{KL}}(p,|,q)$
最小化交叉熵 = 最小化 KL 散度（$H(p)$ 固定）——这正是分类模型的训练目标。

互信息

$I(X;Y)=H(X)-H(X\mid Y)=\sum p(x,y)\log\frac{p(x,y)}{p(x)p(y)}$
度量「知道 $Y$ 后 $X$ 的不确定性减少了多少」，即两变量的依赖强度；独立时 $I=0$。

例题

例　真实标签 $p=(1,0)$、预测 $q=(0.7,0.3)$，交叉熵 $=-\log_2 0.7\approx0.51$ bit；预测越准损失越小——分类网络据此学习。

应用

交叉熵损失是分类的标配；KL 散度是变分推断、VAE、知识蒸馏的核心；互信息用于特征选择、表示学习与信道容量的定义（见信道编码篇）。

评论 (0)

还没有评论，来发表第一条吧。

请先登录后发表评论；还没有账号？注册

← 返回首页