后向传播算法 Backpropagation

后向传播算法是梯度下降的效率算法

设神经网络的参数： $\theta = {w_1,w_2,...,b_1,b_2...}$

神经网络的参数从$\theta_0$开始，一直迭代$\theta_0 \rightarrow \theta_1 \rightarrow \theta_2 \rightarrow ...$。

$\bigtriangledown L (\theta) = \begin{bmatrix}
\frac{\partial L(\theta)}{\partial w_1} \\
\frac{\partial L(\theta)}{\partial w_2} \\
\vdots \\
\frac{\partial L(\theta)}{\partial b_1} \\
\frac{\partial L(\theta)}{\partial b_2} \\
\vdots
\end{bmatrix}$

$\theta_1 = \theta_0-\eta \bigtriangledown L(\theta_0)$

$\theta_2 = \theta_1-\eta \bigtriangledown L(\theta_1)$

这时我们需要用后向传播算法来有效率地计算这动辄上百万个的参数。

后向传播算法其实就是梯度下降算法，只是运算的方式不同而比较有效率地运算而已。

链式法则 Chain Rule

在介绍后向传播算法之前，先了解一下链式法则(Chain Rule)

Case 1: y=g(x) z=h(y)

x可通过公式g(x)的到y，y可通过公式h(y)得到z；

那么变量x,y,x变化的关系可以写成下面形式：

$\bigtriangleup x \rightarrow \bigtriangleup y \rightarrow \bigtriangleup z$

抽象成微分公式可以写成下面形式：

$\frac{\mathrm{d} z}{\mathrm{d} x} = \frac{\mathrm{d} z}{\mathrm{d} y}\frac{\mathrm{d} y}{\mathrm{d} x}$

case 2: x=g(s) y=h(s) z=k(x,y)

s可通过公式g(s)的到x，s可通过公式h(s)得到y，z可通过两个变量x,y和公式k(x,y)得到；

直观的变量s,x,y,z变化关系可以写成下面形式：

抽象成微分公式可以写成下面形式：

$\frac{\mathrm{d} z}{\mathrm{d} s} = \frac{\partial z}{\partial x}\frac{\mathrm{d} x}{\mathrm{d} s} + \frac{\partial z}{\partial y}\frac{\mathrm{d} y}{\mathrm{d} s}$

后向传播算法

给定一组$\underset{\theta}{NN}$神经网络参数，代入$x^n$后得到$y^n$，$y^n$和目标$\hat{y}^n$之间的距离(Cost代价)$C^n$，$C^n$越小越好，即：

$x^n \rightarrow \underset{\theta}{NN} \rightarrow y^n \underset{ C^n }{\Leftrightarrow} \hat{y}^n$

损失函数可以可以写作$L(\theta)=\sum_{n=1}^NC^n(\theta)$

对式子两边偏微分：

$L(\theta)=\sum_{n=1}^NC^n(\theta) \ \ \rightarrow \ \ \frac{\partial L(\theta)}{\partial w}=\sum_{n=1}^N\frac{\partial C^n(\theta)}{\partial w}$

拆开其中一个：

怎样计算$\frac{\partial C}{\partial w}$呢？可以通过链式法则：

$\frac{\partial C}{\partial w}=? \ \ \ \frac{\partial z}{\partial w}\frac{\partial C}{\partial z}$

计算所有参数的$\frac{\partial z}{\partial w}$，称之为前向传导(Forward pass)

计算所有激活函数的输入z的$\frac{\partial C}{\partial z}$，称之为后向传导(Backward pass)

前向传导的计算过程

先来看看前向传导的计算过程：

因为 $z=x_1w_1+x_2w_2+b$

所以有：

$\frac{\partial z}{\partial w_1} = x_1$

$\frac{\partial z}{\partial w_2} = x_2$

可以看出，它们的梯度是上一个节点的输出

上述过程如下图:

后向传导的计算过程

再看看后向传导的计算过程：

设第一个激活函数节点的输出 $a=\sigma(z)$ ( z通过$\sigma()$得到a ) .

$\frac{\partial C}{\partial z} = \frac{\partial a}{\partial z}\frac{\partial C}{\partial a}$

$\frac{\partial a}{\partial z}$ 实际上是$\sigma(z)$的微分.

那么$\frac{\partial C}{\partial a}$怎么求得呢?

根据链式法则可得:

$\frac{\partial C}{\partial a} = \frac{\partial z'}{\partial a}\frac{\partial C}{\partial z'} + \frac{\partial z''}{\partial a}\frac{\partial C}{\partial z''}$

上述过程如下图: