概率与贝叶斯
条件概率与独立性是建模基石。贝叶斯定理把先验更新为后验:
$p(\theta\mid D)=\frac{p(D\mid\theta),p(\theta)}{p(D)}\propto \text{似然}\times\text{先验}$
随机变量与常见分布
- 伯努利:二分类标签;
- 高斯 $N(\mu,\sigma^2)$:回归噪声、GMM、变分推断;
- 指数族:统一了广义线性模型。
期望 $E[X]$、方差 $\mathrm{Var}(X)$、协方差矩阵 $\Sigma$ 刻画分布的中心、分散与相关。
最大似然估计 (MLE)
选参数使观测数据最“可能”:
$\hat\theta=\arg\max_\theta\ \sum_{i=1}^n\log p(x_i\mid\theta)$
许多损失函数(如交叉熵、最小二乘)本质都是负对数似然。大数定律与中心极限定理保证了估计的相合性与渐近正态。
例题
例 $n$ 次投币 $k$ 次正面,伯努利 MLE:$\log L=k\log p+(n-k)\log(1-p)$,求导置零得 $\hat p=k/n$——直觉上的频率,正是似然最大点。
应用
高斯假设把最小二乘解释为 MLE;伯努利假设把逻辑回归的交叉熵解释为 MLE;贝叶斯推断给出带不确定性的预测,是高斯过程、贝叶斯神经网络与 A/B 测试的基础。
评论 (0)
还没有评论,来发表第一条吧。
请先 登录 后发表评论;还没有账号?注册