梯度下降与优化算法

梯度下降 (GD) 与随机梯度下降 (SGD)

沿负梯度迭代 $\theta_{t+1}=\theta_t-\eta\nabla L(\theta_t)$。全量 GD 每步用全部数据；SGD 每步只用一个小批量，引入噪声但更快、且噪声有助逃离尖锐极小。学习率 $\eta$ 太大发散、太小慢，常用调度衰减。

动量与自适应方法

动量法累积历史梯度 $v_t=\beta v_{t-1}+\nabla L$，像“惯性下坡”，加速并抑制振荡。自适应方法按坐标缩放步长：AdaGrad/RMSprop 用梯度平方的累积，Adam 同时用一阶矩与二阶矩：
$\theta_{t+1}=\theta_t-\eta,\frac{\hat m_t}{\sqrt{\hat v_t}+\epsilon}$

二阶方法

牛顿法 $\theta_{t+1}=\theta_t-H^{-1}\nabla L$ 收敛快（二次），但 Hessian 求逆昂贵；拟牛顿（BFGS、L-BFGS）用梯度差近似 $H^{-1}$，是中小规模问题的利器。

例题

例　$L(\theta)=\tfrac12\theta^2$：GD 为 $\theta_{t+1}=(1-\eta)\theta_t$，当 $0<\eta<2$ 收敛；牛顿法一步到位 $\theta_1=\theta_0-\theta_0/1=0$。

应用

Adam 是深度学习训练的默认优化器；SGD + 动量在大模型上常获更好泛化；L-BFGS 用于逻辑回归、CRF 等凸问题。理解学习率、批量与动量的相互作用，是调参的核心功力。

梯度下降与优化算法

梯度下降 (GD) 与随机梯度下降 (SGD)

动量与自适应方法

二阶方法

例题

应用

评论 (0)