当我们在谈论 Deep Learning：DNN 与它的参数们（壹）

余文毅

发布时间 2022.04.07阅读数 3370 评论数 0

本系列意在长期连载分享，内容上可能也会有所增删改减；

因此如果转载，请务必保留源地址，非常感谢！

引言

在上一篇文章中我们介绍了 DNN 的基本结构，以及使用 BP（Backpropagation）求解 $w, b$ 的说明，并简单介绍了在 DNN 中可以使用 Mini-batch GD（Stochastic Gradient Descent）来获得更好的结果。这几个方面算是 DNN 的基础，也即较为固定的。同时，还有其他一些方面，随着对 Deep Learning 认识、试错的增加，有过一些改变或发展，而且以后可能还会继续演进。接下来会从几个方面进行具体介绍：Activation Function、Cost Function、Optimization、Dropout 等。

Activation Function

Sigmoid

最开始接触 ANN 的时候，大家听说的 Activation Function 应该还都是 Sigmoid 函数。它的定义如下：

$f(x)=\frac 1{1+e^{-x}}$

其图形如下

Sigmoid 函数优点很多：

作为 Activation Function，它是单调递增的，能够很好地描述被激活的程度
Sigmoid 能将 $(-\infty,+\infty)$ 转换为 $(0,1)$ ，避免数据在传递过程中太过发散，同时输出还能被理解成某种概率
Sigmoid 在定义域内处处可导，而且导数很好算。 $f^{\prime}(x)=f(x)(1-f(x))$ ，图形如下，可以看出 $f^{\prime}(x)<1$

但是，Sigmoid 的导数也带来了一些问题。在上一部分我们介绍过如何通过 BP 来计算 $\frac{\partial C^r}{\partial w^l_{ij}}$ ，如下

$\begin{align} & \frac{\partial C^r}{\partial w^l_{ij}}=a^{l-1}_j \delta^l_j \\ & \delta^l=(W^{l+1})^T\delta^{l+1}\odot \sigma^{\prime}(z^l) \\ \end{align}$

假设 $\sigma(z)$ 为 Sigmoid 函数，有 $\sigma^{\prime}(z)<1$ 。因此随着 $l$ 的减小， $\delta^l$ 会越来越小，从而 $\frac{\partial C^r}{\partial w^l_{ij}}$ 也会越来越小。当 DNN 比较深的时，较前层的参数求出的梯度会非常小，几乎不会再更新，这种现象被称为 Gradient Vanish。

ReLU

为了缓解 Gradient Vanish 现象，现在大家都会使用 ReLU（Rectified Linear Unit），其定义如下

$y= \begin{cases} x,& \text{if $ x\geq $0} \\ 0,& \text{if $ x< $0} \end{cases}$

对应的图形如下

ReLU 除了具有 Sigmoid 函数大部分的优点外，还有

对某个神经元，当 $x>0$ 时，其导数为1，因而缓解了 Gradient Vanish 现象。因此，ReLU 也是最近几年非常受欢迎的激活函数
对某个神经元，当 $x<0$ 时，其输出也是0，也就是对后续的网络不起作用，可以看作从网络中被移除了。因此在整个训练过程结束后，整个网络会呈现出一种稀疏的状态，也就是会有很多的神经元由于在网络中不起作用，可以当成不存在。这种稀疏也表明 ReLU 对避免网络过拟合有一定作用。

同时，ReLU 也有自己的缺陷：

可以看出当 $x<0$ 时，不仅输出为0，ReLU 的导数也为0。即对应的参数不再更新。因此这个神经元再也没有被激活的机会了，这种现象被称为 dying ReLU
第二个现象叫 Bias shift。在将数据输入 DNN 时我们一般会进行高斯归一，但是由于 ReLU 的输出恒大于0，会导致后续层输出的数据分布发生偏移。对于很深的网络，这可能会导致无法收敛。

LReLU、PReLU

为了解决 dying ReLU 的问题，有学者提出了 LReLU（Leaky Rectified Linear Unit）、PReLU（Prametric Rectified Linear Unit）。它们被定义为

$y_i= \begin{cases} x_i & \text{if}(x_i>0) \\ a_ix_i & \text{if}(x_i\le0) \end{cases}$

对应的图形如下

LReLU 可以避免 dying ReLU，使神经元在任何输入下都能持续更新参数。对于 LReLU， $a_i$ 是需要我们提前设定好的较小的数，比如0.01。但是，提前设定 $a_i$ 也带来了调参的难度。为了解决难以选择合适参数的问题，出现了 PReLU。

PReLU 公式跟 LReLU 是一样的，不同的是PReLU的 $a_i$ 是通过训练样本自动学习的。学习的方式依然是 BP 算法。但是，PReLU 在小数据下容易过拟合。具体的步骤可以参考"He, Kaiming, Zhang, Xiangyu, Ren, Shaoqing, and Sun, Jian. Delving deep into rectiers: Surpassing human-level performance on imagenet classication.2015."

RReLU

RReLU（Randomized Rectified Linear Unit）是 LReLU 的随机版本。它最早出现在Kaggle NDSB比赛中，定义如下

$y_{ji}=\begin{cases} x_{ji}& \text{if}(x_{ji}>0)\\ a_{ji}y_{ji}& \text{if}(x_{ji}\le0) \end{cases}$

其中 $a_{ji} \sim U(l,u),l<u\;\;and\;\;l,u\in [0,1)$

在训练时， $a_{ji}$ 是一个保持在 $(l,u)$ 内均匀分布的随机变量，而在测试中被固定为 $\frac{l+u}2$ 。关于 RReLU 并没有太多的文章，想进一步了解的话可以参考“Xu B, Wang N, Chen T, et al. Empirical Evaluation of Rectified Activations in Convolutional Network. 2015.”

Others

Activation Function 是一个比较发散的课题，在不同的任务中有不同的选择，暂时先不做更多的介绍。其它的 Activation Function 比如 Maxou、ELU 等，有兴趣的同学可以自己查找相关资料。

Cost Function

Softmax + Cross Entropy

在 DNN 中进行多类分类时，使用的最多的 Cost Function 就是 Cross Entropy Loss，这里我们也主要介绍它。

首先，对于两个分布 $p(x)$ 与 $q(x)$ ，交叉熵的定义为：

$H(p,q)=-\int p(x) log q(x) dx$

交叉熵用于衡量两个分布的相似性。当 $p(x)$ 与 $q(x)$ 的分布完全一致时， $H(p,q)$ 最小。

对于分类问题，假设进行 $K$ 类分类，我们将某个样本 $x$ 的真实的类别标记 $\hat y$ 用向量 $[\hat y_1,...,\hat y_k,...,\hat y_K]$ 描述，其中

$\hat y_k= \begin{cases} 1,& \text{if $ k=\hat y$} \\ 0,& \text{if $ k\ne \hat y$} \end{cases}$

于是， $\hat y_k$ 可以被理解为 $x$ 为第 $k$ 类的概率。因此，DNN 的输出 $y$ 应该也是一个向量 $[y_1,...,y_k,...y_K]$ ，且需要与 $[\hat y_1,...,\hat y_k,...,\hat y_K]$ 尽可能的接近。为了描述这两个分布的相似性，于是就引入了 Cross Entropy Loss，其定义如下：

$C(y, \hat y)=-\sum^K_{k=1} \hat y_klog(y_k)$

对于两类分类， $\hat y\in\{0,1\}$ ， $C(y, \hat y)$ 可以简化为：

$C(y, \hat y)=-\hat ylog(y)-(1-\hat y)log(1-y)$

还有一点需要注意，在上一章介绍DNN时，我们假设了 Output Layer 中从 $z$ 到 $y$ 的变换是普通的 Activation Function，即 $\sigma$ 函数，如图

但是在多类分类时， $y_k$ 表示的样本属于第 $k$ 类的概率。此时将 $z_k$ 转换为 $y_k$ 的操作即 Sotfmax，其公式如下

$y_k=\frac{e^{z_k}}{\sum_{i=1}^{K} e^{z_i}}$

用图像来表述，如下

其实使用 Cross Entropy Loss 作为损失函数不是 DNN 的专属，在“当我们在谈论GBDT：Gradient Boosting 用于分类与回归”中介绍过 GBDT 在进行多类分类的时候就是使用的 Softmax + Cross Entropy，只是当时它被称为对数损失函数（Log-Likehood Loss）。有兴趣的同学可以回去看看那个部分。

最后需要说明的是，当我们使用 MSE（均方误差）作为 Cost Function ，会导致 $w,b$ 的更新速度依赖于 Activation Function 的导数，在 Activation Function 为 Sigmoid 函数时很容易更新缓慢；而使用 Softmax + Cross Entropy Loss，能够有效克服这个问题。这也是 Cross Entropy Loss 在分类问题中使用较多的原因之一。这里先不展开介绍了，以后有机会再补充。

Regularization 与 Weight Decay

上面讲完 Cost Function，按照套路，这个时候就要开始预防过拟合了，这里我们再讲一下 Regularization 相关。

Weight Decay

假设我们使用的是 L2 Regularization，则对应的公式如下：

$C\prime(\theta)=C(\theta)+\lambda\frac12||\theta||^2$

其中， $\theta=\{W^1,W^2... \}$ ，即所有 $W$ 的集合，注意这里只考虑了 $W$ 没有考虑 $b$ （原因似乎是因为实验表明 $b$ 的约束对结果并没有太大的提升，不过暂时还没找到出处，以后看到再补充）； $||\theta||^2=\sum_l (w^l_{ij})^2$ ，即所有 $w$ 的平方和； $\lambda$ 用于控制 Regularization 的程度，也叫 Weight Decay，越大则模型越倾向于简单。

在用 BP 更新参数时，有

$\frac{\partial C^\prime(\theta)}{\partial w}=\frac{\partial C(\theta)}{\partial w}+\lambda w$

于是在更新 $w$ 时，更新式为

$\begin{align} w^{t+1} & = w^t-\eta \frac{\partial C^\prime(\theta)}{\partial w} \\ & = (1-\eta\lambda)w^t-\eta\frac{\partial C(\theta)}{\partial w}\\ \end{align}$

可以看出，更新式比没有 Weight Decay 多了 $(1-\eta\lambda)$ 这一项；且由于它小于1， $w$ 会在进行梯度下降的同时会被持续减小，这也是 Weight Decay 这个名称的由来。

Regularization 的理解

既然谈到了 Regularization，顺带谈一个经常被提及的问题——Regularization 的解释，即它到底是为什么会带来正则化的效果的。

第一种，是从 PRML 中看到的

对于 L1、L2 Regularization，他们的 Cost Function 分别可以写作

$\begin{align} & min_w Loss(w)+\lambda||w||_1 \\ & min_w Loss(w)+\lambda||w||_2 \\ \end{align}$

于是，我们可以写出它们的等价形式，如下

$\begin{align} & min_w Loss(w) s.t.||w||_1 \le C \\ & min_w Loss(w) s.t.||w||_2 \le C \\ \end{align}$

可以看出，我们其实是通过 L1 或 L2 约束将 $w$ 限制在一个空间中，在此基础上求出使 Cost Function 最小的 $w$ 。

假设现在考虑 $w$ 有两维，如下图。其中黄色区域分别是 L2 和 L1 约束，蓝色是 Cost Function 的等高线。蓝色与红色的切点即求出的 $w$ ，可以看出对于 L1 约束， $w$ 更容易出现在坐标轴上，即只有一个维度上有非0值；而对于 L2 约束，则可能出现在象限的任何位置。这也是 L1 正则会带来稀疏解的解释之一。

第二种，是从概率的角度

假设给定观察数据为 $D$ ，贝叶斯方法通过最大化后验概率估计参数 $w$ ，即

$\begin{align} w^* & = argmax_wp(w|D) \\ & = argmax_w\frac{p(D|w)p(w)}{p(D)} \\ & = argmax_wp(D|w)p(w) \\ & = argmax_w log(p(D|w))+log(p(w)) \\ & = argmin_w -log(p(D|w))-log(p(w)) \\ \end{align}$

其中， $p(D|w)$ 是似然函数， $p(w)$ 是参数的先验。

当 $w$ 服从 $M$ 维0均值高斯分布，即

$p(w)=N(w|0,\alpha^{-1}I)=(\frac{\alpha}{2\pi})^{M/2}exp\{-\frac\alpha2w^Tw\}$

代入上式，有

$\begin{align} w^* & = argmin_w -log(p(D|w))-log(p(w)) \\ & = argmin_w -log(p(D|w))+\frac\alpha2w^Tw+C(\alpha) \\ \end{align}$

其中，第一项就是我们平时所定义的 Cost Function；第二项就是 L2 正则项；第三项当给定了 $\alpha$ 那么就是常数了。所以我们可以看出， L2 正则本质其实是给模型参数 $w$ 添加了一个协方差为 $\alpha^{-1}I$ 的零均值高斯分布先验。而 $\alpha$ 越小，则协方差 $\alpha^{-1}I$ 越大，表明先验对 $w$ 的约束越弱，模型的 variance 越大；反之，而 $\alpha$ 越大，则协方差 $\alpha^{-1}I$ 越小，表明先验对 $w$ 的约束越强，模型越稳定。这与我们平时的理解是吻合的。

当 $w$ 服从 $M$ 维0均值同分布 Laplace 分布时，即

$p(w)=\frac{1}{(2b)^M}exp\{-\frac{||w||_1}{b}\}$

代入上式，有

$\begin{align} w^* & = argmin_w -log(p(D|w))-log(p(w)) \\ & = argmin_w -log(p(D|w))+\frac1b||w||_1+C(b) \\ \end{align}$

同样，第一项就是我们平时所定义的 Cost Function；第二项就是 L1 正则项；第三项当给定了 $b$ 那么就是常数了。一维 Laplace 分布如下：

$p(w)=\frac1{2b}exp\{-\frac{w-\mu}{b}\}$

其概率密度如下图所示，可以看出它取值的特点是很大概率落在一个小范围内。当 $\mu=0$ 时，它会以很大概率取值在0的附近，这也就是 L1 约束会出现稀疏解的原因。

尾巴

在梳理 DNN 相关知识时，感觉现阶段 DNN 相关的信息有一些特点：首先是涉及到的知识很广泛，却都比较零碎；其次，DNN 中对于参数的解释更多地需要意会，理论上能解释的特别好的并不太多。这种特点某种程度上也体现在了这篇文章中，可能也会体现在整个 DNN 系列中。同时，由于事情较多，每日写 BLOG 时间很有限，如果文章有什么错误或者建议，也欢迎指出。

本系列其他文章：

Supervised Learning：

当我们在谈论 Deep Learning：DNN 与 Backpropagation

当我们在谈论 Deep Learning：DNN 与它的参数们（壹）

当我们在谈论 Deep Learning：DNN 与它的参数们（贰）

当我们在谈论 Deep Learning：DNN 与它的参数们（叁）

当我们在谈论 Deep Learning：CNN 其常见架构（上）

当我们在谈论 Deep Learning：CNN 其常见架构（下）

当我们在谈论 Deep Learning：GAN 与 WGAN

Unsupervised Learning：

Reinforcement Learning：

人工智能建模仿真机器学习深度学习 DNN

打赏 0

上一篇：当我们在谈论 Deep Learning：DNN 与 Backpropagation

下一篇：当我们在谈论 Deep Learning：DNN 与它的参数们（贰）

当我们在谈论 Deep Learning：DNN 与它的参数们（壹）

余文毅

引言

Activation Function

Cost Function

Regularization 与 Weight Decay

尾巴

本系列其他文章：

为你推荐

PyTorch新技能解锁：torch.fx

(一)实战解析——TensorFlow用一个平面拟合三维数据

SVM（一）：线性支持向量机

pytorch实现yolov3(2) 配置文件解析及各layer生成

MATLAB神经网络（一）：BP神经网络

Pytorch实现经典卷积神经网络LeNet

关于作者

余文毅

9

0

0

1

当我们在谈论 Deep Learning：AutoEncoder 及其相关模型

当我们在谈论 Deep Learning：CNN 其常见架构（上）

当我们在谈论 Deep Learning：DNN 与它的参数们（叁）

相关推荐

机器学习笔记-假设检验

强化学习笔记1

精选数据分类算法-朴素贝叶斯

「RL篇玖」: Twin Delayed DDPG TD3原理与实现

【从0入门AI深度学习】华为ModelArts与深度学习简介（公开课笔记）

学习量子机器学习框架VQNet（三）

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

当我们在谈论 Deep Learning：DNN 与它的参数们（壹）

余文毅

引言

Activation Function

Cost Function

Regularization 与 Weight Decay

尾巴

本系列其他文章：

为你推荐

PyTorch新技能解锁：torch.fx

(一)实战解析——TensorFlow用一个平面拟合三维数据

SVM（一）：线性支持向量机

pytorch实现yolov3(2) 配置文件解析及各layer生成

MATLAB神经网络（一）：BP神经网络

Pytorch实现经典卷积神经网络LeNet

评论（0）

关于作者

余文毅

9

0

0

1

当我们在谈论 Deep Learning：AutoEncoder 及其相关模型

当我们在谈论 Deep Learning：CNN 其常见架构（上）

当我们在谈论 Deep Learning：DNN 与它的参数们（叁）

相关推荐

机器学习笔记-假设检验

强化学习笔记1

精选数据分类算法-朴素贝叶斯

「RL篇 玖」: Twin Delayed DDPG TD3原理与实现

【从0入门AI深度学习】华为ModelArts与深度学习简介（公开课笔记）

学习量子机器学习框架VQNet（三）

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

「RL篇玖」: Twin Delayed DDPG TD3原理与实现

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板