多层感知机 (MLP)
逐层做“线性变换 + 非线性激活”:
$\mathbf h^{(l)}=\phi!\big(W^{(l)}\mathbf h^{(l-1)}+\mathbf b^{(l)}\big)$
激活函数 $\phi$ 常用 ReLU $\max(0,z)$(缓解梯度消失)、Sigmoid、Tanh。万能逼近定理:含一个隐层的网络可逼近任意连续函数——深度带来高效的表达。
反向传播
训练用链式法则从输出向输入逐层回传梯度:
$\delta^{(l)}=\big(W^{(l+1)}\big)^\top\delta^{(l+1)}\odot\phi'(z^{(l)}),\qquad \frac{\partial L}{\partial W^{(l)}}=\delta^{(l)}\mathbf h^{(l-1)\top}$
本质是计算图上的自动微分,一次前向 + 一次反向即得全部梯度。
计算图与自动微分
把运算记成有向图,前向求值、反向按链式法则累积导数。PyTorch/TensorFlow 的 autograd 让我们只写前向、梯度自动得出。
例题
例 $L=(\sigma(wx)-y)^2$:链式法则 $\dfrac{\partial L}{\partial w}=2(\sigma-y),\sigma(1-\sigma),x$——逐环相乘,正是反向传播的一条路径。
应用
反向传播是整个深度学习的引擎。理解梯度如何逐层流动,才能诊断梯度消失/爆炸、设计残差连接与归一化、并读懂框架的 autograd 行为。
评论 (0)
还没有评论,来发表第一条吧。
请先 登录 后发表评论;还没有账号?注册