微分熵

连续随机变量的熵推广为微分熵
$h(X)=-\int p(x)\log_2 p(x),dx$
与离散熵不同,它可正可负(依赖坐标尺度),但熵差与互信息仍有良好意义。

高斯分布熵最大

给定方差 $\sigma^2$ 的所有连续分布中,高斯分布的微分熵最大
$h(X)=\tfrac12\log_2(2\pi e,\sigma^2)$
这解释了为何高斯既「最随机」又最常用作噪声模型。

最大熵原理

在满足已知约束(如给定均值、方差)的所有分布中,选熵最大者——它「最不武断」,只编码已知信息、对未知不做额外假设。

例题

 只知道随机变量取正且均值固定 → 最大熵分布是指数分布;再加方差约束 → 高斯。约束决定分布形态。

应用

最大熵原理是统计建模、自然语言模型(最大熵/逻辑回归)、图像重建、金融与物理的统一思想;高斯熵公式直接进入 AWGN 信道容量(香农公式)。