信息熵

自信息与熵

一个概率为 $p$ 的事件发生，带来的信息量是自信息 $-\log_2 p$（越罕见越「惊讶」、信息越大，单位 bit）。随机变量的平均信息量即香农熵：
$H(X)=-\sum_i p_i\log_2 p_i$
熵度量「不确定性」：分布越均匀熵越大，越确定熵越小（确定事件熵为 $0$）。

联合熵与条件熵

$H(X,Y)=-\sum p(x,y)\log p(x,y),\qquad H(Y\mid X)=H(X,Y)-H(X)$
链式法则 $H(X,Y)=H(X)+H(Y\mid X)$：联合的不确定性 = 先看 $X$ 再看 $Y$。

性质

$0\le H(X)\le\log_2 n$（$n$ 个取值），右端当且仅当均匀分布取得。

例题

例 1　公平硬币 $H=-2\times\tfrac12\log_2\tfrac12=1$ bit；不公平 $(0.9,0.1)$ 时 $H\approx0.47$ bit——越偏越「好猜」、熵越低。

例 2　四等概符号 $H=\log_2 4=2$ bit，故每符号至少需 2 比特表示。

应用

熵是无损压缩的理论下界（香农第一定理）、决策树分裂的信息增益准则、以及密码学「随机性强度」的度量。它把「信息」从直觉变成可计算的量。

自信息与熵

联合熵与条件熵

性质

例题

应用

评论 (0)