神经网络与反向传播

多层感知机 (MLP)

逐层做“线性变换 + 非线性激活”：
$\mathbf h^{(l)}=\phi!\big(W^{(l)}\mathbf h^{(l-1)}+\mathbf b^{(l)}\big)$
激活函数 $\phi$ 常用 ReLU $\max(0,z)$（缓解梯度消失）、Sigmoid、Tanh。万能逼近定理：含一个隐层的网络可逼近任意连续函数——深度带来高效的表达。

反向传播

训练用链式法则从输出向输入逐层回传梯度：
$\delta^{(l)}=\big(W^{(l+1)}\big)^\top\delta^{(l+1)}\odot\phi'(z^{(l)}),\qquad \frac{\partial L}{\partial W^{(l)}}=\delta^{(l)}\mathbf h^{(l-1)\top}$
本质是计算图上的自动微分，一次前向 + 一次反向即得全部梯度。

计算图与自动微分

把运算记成有向图，前向求值、反向按链式法则累积导数。PyTorch/TensorFlow 的 autograd 让我们只写前向、梯度自动得出。

例题

例　$L=(\sigma(wx)-y)^2$：链式法则 $\dfrac{\partial L}{\partial w}=2(\sigma-y),\sigma(1-\sigma),x$——逐环相乘，正是反向传播的一条路径。

应用

反向传播是整个深度学习的引擎。理解梯度如何逐层流动，才能诊断梯度消失/爆炸、设计残差连接与归一化、并读懂框架的 autograd 行为。

神经网络与反向传播

多层感知机 (MLP)

反向传播

计算图与自动微分

例题

应用

评论 (0)