自信息与熵
一个概率为 $p$ 的事件发生,带来的信息量是自信息 $-\log_2 p$(越罕见越「惊讶」、信息越大,单位 bit)。随机变量的平均信息量即香农熵:
$H(X)=-\sum_i p_i\log_2 p_i$
熵度量「不确定性」:分布越均匀熵越大,越确定熵越小(确定事件熵为 $0$)。
联合熵与条件熵
$H(X,Y)=-\sum p(x,y)\log p(x,y),\qquad H(Y\mid X)=H(X,Y)-H(X)$
链式法则 $H(X,Y)=H(X)+H(Y\mid X)$:联合的不确定性 = 先看 $X$ 再看 $Y$。
性质
$0\le H(X)\le\log_2 n$($n$ 个取值),右端当且仅当均匀分布取得。
例题
例 1 公平硬币 $H=-2\times\tfrac12\log_2\tfrac12=1$ bit;不公平 $(0.9,0.1)$ 时 $H\approx0.47$ bit——越偏越「好猜」、熵越低。
例 2 四等概符号 $H=\log_2 4=2$ bit,故每符号至少需 2 比特表示。
应用
熵是无损压缩的理论下界(香农第一定理)、决策树分裂的信息增益准则、以及密码学「随机性强度」的度量。它把「信息」从直觉变成可计算的量。
评论 (0)
还没有评论,来发表第一条吧。
请先 登录 后发表评论;还没有账号?注册