梯度下降 (GD) 与随机梯度下降 (SGD)

沿负梯度迭代 $\theta_{t+1}=\theta_t-\eta\nabla L(\theta_t)$。全量 GD 每步用全部数据;SGD 每步只用一个小批量,引入噪声但更快、且噪声有助逃离尖锐极小。学习率 $\eta$ 太大发散、太小慢,常用调度衰减。

动量与自适应方法

动量法累积历史梯度 $v_t=\beta v_{t-1}+\nabla L$,像“惯性下坡”,加速并抑制振荡。自适应方法按坐标缩放步长:AdaGrad/RMSprop 用梯度平方的累积,Adam 同时用一阶矩与二阶矩:
$\theta_{t+1}=\theta_t-\eta,\frac{\hat m_t}{\sqrt{\hat v_t}+\epsilon}$

二阶方法

牛顿法 $\theta_{t+1}=\theta_t-H^{-1}\nabla L$ 收敛快(二次),但 Hessian 求逆昂贵;拟牛顿(BFGS、L-BFGS)用梯度差近似 $H^{-1}$,是中小规模问题的利器。

例题

 $L(\theta)=\tfrac12\theta^2$:GD 为 $\theta_{t+1}=(1-\eta)\theta_t$,当 $0<\eta<2$ 收敛;牛顿法一步到位 $\theta_1=\theta_0-\theta_0/1=0$。

应用

Adam 是深度学习训练的默认优化器;SGD + 动量在大模型上常获更好泛化;L-BFGS 用于逻辑回归、CRF 等凸问题。理解学习率、批量与动量的相互作用,是调参的核心功力。