之前在上stanford的224n，原理搞懂了，但是代码还是磕磕绊绊，我认为主要原因是里面的文档写的太过于无厘头了，导致我看不懂他想干嘛，和我的思路不一样！（深信不疑）（明明是你菜）

下面是对应的problemSet里面数学推导的过程，我觉得除了数学专业的以外，每个人入门神经网络的时候都被梯度下降，目标函数相关的数学原理坑到过，其最大的坑应该在于：这个变量，他是一个标量，还是一个向量？是一个常数，还是一个矩阵？希望同样是学渣的在下能帮同样是数学学渣的读者们理清一些思路，权当是抛砖引玉了。

当然由于在下是数学学渣，所以难免会有理解错误的地方，非常欢迎讨论和指正。

由于是边推导边写的文档，可能存在一点不方便阅读的地方，如果你看到这个的话说明还在编辑修改中。

problem 1

softmax的特殊规则推导

试证：

$softmax(x)=softmax(x+c)$

softmax函数定义为：

$softmax(x_i)=\frac{e^{x_i}}{\sum_j^n e^{x_j}}$

根据有关规定(鬼才知道哪里规定了一个对于一个函数输入是一个矩阵则输出必须是一个矩阵)

$x=[1,2]^T$ 这样的一个矩阵，求 $softmax(x)$ ,其结果是：

$softmax(x)=[\frac{e^1}{e^1+e^2},\frac{e^2}{e^1+e^2}]^T$

那么说说之前的证明，其实很好证：

$softmax(x+c) = \frac{e^{x_i+c}}{\sum_j^n e^{x_j+c}} = \frac{e^ce^{x_i}}{e^c\sum_j^n e^{x_j}}=\frac{e^{x_i}}{\sum_j^n e^{x_j}}=softmax(x)$

因为证明了 $softmax(x)=softmax(x+c)$，所以说我们可以用在算$softmax(x)$的时候用设$c=max(x)$(即矩阵中最大的一个元素)，得到以下式子：

$softmax(x-max(x))$

来提高计算稳定性。

至于为什么能提高，可以自己想一想。(下面是答案）

防止$e^x$中x过大导致数值溢出

反向传播推导

图例

说明

这是一个比较简单的多分类神经网络，其输入是 $I_{n\times 1}$ ，假设激活函数为

$sig(x)=\frac{1}{1+e^{-x}}$

,输出以后通过

$softmax(x_j)=\frac{e^{x_j}}{\sum^{o}_{i=1}e^{x_i}}$

得到向量$\hat{Y}_{o\times 1}$

将$\hat{Y}_{o\times 1}$通过交叉熵公式得出结果

设label为 $Y_{o\times 1}$ 且其为one-hot key,则交叉熵公式为：

$CE(Y_{o\times 1}，\hat{Y}_{o\times 1})=-\sum^{o}_{i=1}Y_ilog(\hat{Y}_i)$

例子：求导 $W2$

对一个前向传播求出的

$CE(Y_{o\times 1}，\hat{Y}_{o\times 1})$

求关于$W2$：

$W2=\left[ \begin{matrix} w_{11} & w_{12} \\ w_{21} & w_{22}\end{matrix}\right]$ $B2=\left[ \begin{matrix} b_{1} \\ b_{2} \end{matrix}\right]$

注，B矩阵是每个神经元的bias，没有在图中表示，想要了解可自行百度(:з)∠)

$H=\left[ \begin{matrix} h_{1} \\ h_{2} \end{matrix}\right]$ $O=W2H+B2=\left[ \begin{matrix} o_{1} \\ o_{2} \end{matrix}\right]=\left[ \begin{matrix} w_{11}h_{1}+ w_{12}\times h_{2}+b_{1} \\ w_{21}h_{1}+ w_{22}\times h_{2}+b_{2} \end{matrix}\right]$ $S=softmax(O)=>S(o_i)=\frac{e^{o_j}}{\sum^{o}_{i=1}e^{o_i}}$ $CE(Y_{o\times 1}，\hat{Y}_{o\times 1})=-\sum^{o}_{i=1}Y_ilog(\hat{Y}_i)$

$w_{11}$的偏导则为：

$\frac{\partial{CE}}{\partial{w_{11}}}$

注意下这边不能直接用链式法则展开，不然遇到中间求矩阵导的情况就彻底GG了。以下为推导：

$\begin{equation} \begin{aligned} \frac{\partial{CE}}{\partial{w_{11}}} &= -\sum^{o}_{i=1}\frac{\partial{}Y_ilog(\hat{Y}_i)}{\partial{w_{11}}} \\ &=-\sum^{o}_{i=1}\frac{Y_i\partial{}log(\hat{Y}_i)}{\partial{w_{11}}} \\ &=-\sum^{o}_{i=1}\frac{Y_i\partial{\hat{Y}_i}}{\hat{Y}_i\partial{w_{11}}} \end{aligned} \end{equation}$

接下来对于

$\sum^{o}_{i=1}\frac{\partial{\hat{Y}_i}}{\partial{w_{11}}}$

进行求导，即求：

$\begin{equation} \begin{aligned} \sum^{o}_{i=1}\frac{\partial{\frac{e^{o_i}}{\sum^{o}_{j=1}e^{o_j}}}}{\partial{w_{11}}} \end{aligned} \end{equation}$

那么这么需要一个变形，即：

$\begin{equation} \begin{aligned} \sum^{o}_{i=1}\frac{\partial{\frac{e^{o_i}}{\sum^{o}_{j=1}e^{o_j}}}}{\partial{o_{1}}}\frac{\partial{o_{1}}}{\partial{w_{11}}} = h_{11} \sum^{o}_{i=1} \frac{ \partial{} \frac{ e^{o_i} } { \sum^{o}_{j=1}e^{o_j} } } {\partial{o_{1}}} \end{aligned} \end{equation}$

而关于softmax的偏导如下，对于

$softmax(o_i)=\frac{e^{o_i}}{\sum^{n}_{k=1}e^{o_k}}$

这里将$\sum^{o}_{j=1}$的o改成了n,j改成k来避免混淆。

做关于$o_j$的推导

即求

$\frac{\partial{\frac{e^{o_i}}{\sum^{n}_{k=1}e^{o_k}}}}{\partial{o_j}}$

,为了方便起见，约定

$\sum^{n}_{k=1}e^{o_k}=\sum$ $\begin{equation} \begin{aligned} \frac{\partial{\frac{e^{o_i}}{\sum}}}{\partial{o_j}} &= \frac { \sum \frac{\partial{e^{o_i}}} {\partial{o_j}} - \frac{\partial{\sum}} {\partial{o_j}} e^{o_i} } {\sum^2} \end{aligned} \end{equation}$

此时若$j=i$，则：

$\begin{equation} \begin{aligned} \frac{\partial{\frac{e^{o_i}}{\sum}}}{\partial{o_j}}=\frac{\partial{\frac{e^{o_i}}{\sum}}}{\partial{o_i}} &= \frac { \sum \frac{\partial{e^{o_i}}} {\partial{o_i}} - \frac{\partial{\sum}} {\partial{o_i}} e^{o_i} } {\sum^2} \\&= \frac { \sum · e^{o_i} - e^{2o_i} } {\sum^2} \\&= \frac { e^{o_i} } {\sum} \frac { ( \sum - e^{o_i} ) } {\sum} \\&= softmax(o_i) \times (1-softmax(o_i)) \\&= softmax(o_i) - softmax(o_i) \times softmax(o_j) \end{aligned} \end{equation}$

最后一步的转化是为了方便统一格式

若$j\neq{i}$,则：

$\begin{equation} \begin{aligned} \frac{\partial{\frac{e^{o_i}}{\sum}}}{\partial{o_j}} &= \frac { \sum \frac{\partial{e^{o_i}}} {\partial{o_j}} - \frac{\partial{\sum}} {\partial{o_j}} e^{o_i} } {\sum^2} \\&= \frac { - e^{o_j} e^{o_i} } {\sum^2} \\&= - softmax(o_i) \times softmax(o_j) \end{aligned} \end{equation}$

那么进行总结

$\begin{equation} \frac{\partial{\frac{e^{o_i}}{\sum}}}{\partial{o_j}}= \begin{cases} s(o_i) - s(o_i)\times s(o_j) \quad j=i \\ -s(o_i)\times s(o_j) \quad j\neq i \end{cases} \tag{1} \end{equation}$

刚才的问题是求

$- \sum^{o}_{i=1} \frac{ Y_i \partial{} \frac{ e^{o_i} } { \sum } } { s(o_i)\partial{o_{1}} }$

根据之前的约定

$\hat{Y_i}=s(o_i)$

那么，带入$(1)$求其通解即是：

$\begin{equation} \begin{aligned} -\sum^{o}_{i=1} \frac{Y_i}{s(o_i)} \frac{ \partial{} \frac{ e^{o_i} } { \sum } } { \partial{o_{j}} } &= - \frac{Y_i}{s(o_j)} s(o_j) + \sum^{o}_{i=1}{ \frac{Y_i}{s(o_i)} s(o_i)\times s(o_j) } \\ &= - {Y_j} + \sum^{o}_{i=1}{ {Y_i}\times s(o_j) } \end{aligned} \end{equation}$

这里有些跳步，觉得疑惑的读者可以用纸笔带入（1）算一下……

那么，在这个多分类中我们采用one-hot key编码，仔细想一下，就可以发现:假设one-hot key中1在第$num$位，那么如果当所求的数字$j=num$时，得到的结果会是：

$- {Y_j} + \sum^{o}_{i=1}{ {Y_i}\times s(o_j) } = -1+s(o_j)$

如果$j\neq{num}$,那么所得的数字就是：

$- {Y_j} + \sum^{o}_{i=1}{ {Y_i}\times s(o_j) } = s(o_j)$

那么，总结上述提到的几个公式：

$\frac{\partial{CE}}{\partial{w_{jk}}} = -\sum^{o}_{i=1}\frac{Y_i\partial{\hat{Y}_i}}{\hat{Y}_i\partial{w_{jk}}} = - \sum^{o}_{i=1} \frac{Y_i}{s(o_i)} \frac{\partial{s(o_i)}}{\partial{o_{j}}} \frac{\partial{o_{j}}}{\partial{w_{jk}}} = - \sum^{o}_{i=1} \frac{Y_i}{s(o_i)} \frac{\partial{s(o_i)}}{\partial{o_{j}}} h_k$

然后对于$w_{jk}$的最终结果

如果$j=num$时，我们得到梯度为

$(s(o_j)-1)\times h_k$,不然$s(o_j)\times h_k$

例子：求导$W1$

因方便阅读之起见，上面的图例再用一次：

neuralNetwork

$W1=\left[ \begin{matrix} w_{11} & w_{12} \\ w_{21} & w_{22}\end{matrix}\right]$ $B1=\left[ \begin{matrix} b_{1} \\ b_{2} \end{matrix}\right]$ $I=\left[ \begin{matrix} i_{1} \\ i_{2} \end{matrix}\right]$ $H=sig(W1I1+B1) = \left[ \begin{matrix} h_1 \\ h_2 \end{matrix} \right] = \left[ \begin{matrix} sig(\sum^2_{i=1}w_{1i}i_i+b_1) \\ sig(\sum^2_{i=1}w_{2i}i_i+b_2) \end{matrix} \right]$

其中，$sig(X)$为：

$sig(X)=sig(x_{ij})=\frac{1}{1+e^{-x_{ij}}}$

对其求导，则易得：

$sig‘(x_{ij})=sig(x_{ij})(1-sig(x_{ij}))$

我们的目的是求得

$\frac{\partial{CE}}{\partial{}W1_{ij}}$

,那么易得以下公式：

注：这边的$W1_{ij}$从图中可以比较轻松的看出是hidden层第i个神经元的第j条输入的权重。

$\begin{equation} \begin{aligned} \frac{\partial{CE}}{\partial{}W1_{ij}} &= \frac{\partial{CE}}{\partial{}h_{i}}\frac{\partial{h_i}}{\partial{}W1_{ij}} \\ &= \frac{\partial{CE}}{\partial{}h_{i}} \frac{\partial{h_i}}{\partial{}(W1_{ij}\times i_j){}} \frac{\partial{}(W1_{ij}\times i_j)}{\partial{}W1_{ij}} \\ &= \frac{\partial{CE}}{\partial{}h_{i}} (h_i(1-h_i)) i_j \end{aligned} \end{equation}$

那么对于一个独立的$h_k$

$\frac{\partial{CE}}{\partial{}h_{k}}$

的求导为：

$\frac{\partial{CE}}{\partial{h_k}} = -\sum^{o}_{i=1}\frac{Y_i\partial{\hat{Y}_i}}{\hat{Y}_i\partial{h_k}} = - \sum^{o}_{i=1} \frac{Y_i}{s(o_i)} \frac{\partial{s(o_i)}}{\partial{o_{j}}} \frac{\partial{o_{j}}}{\partial{h_k}} = - \sum^{o}_{i=1} \frac{Y_i}{s(o_i)} \frac{\partial{s(o_i)}}{\partial{o_{j}}} h_k$