深度学习与计算机视觉(PB-07)-优化算法

在之前的章节中，我们只研究和使用了随机梯度下降法(SGD)来优化网络模型，但是，在深度学习中还有其他高级的优化算法，这些高级方法可以加速训练过程或者提高准确度:

在可接受的准确度下，高级算法可以减少训练时间(比如更少的迭代次数epochs)。
模型可以更好的适应其他超参数，而不仅仅是学习率。
理想情况下，可以获得比SGD更高的分类准确度。

随着深度学习的不断发展，新的优化技术层出不穷，每一种新的优化技术都试图改进SGD算法，并且可以自适应学习速率。正如我们所知道的，在给定学习率情况下，SGD算法对网络中的所有参数进行同等的优化。但是，考虑到学习率既是优化网络过程中最重要的参数之一，又很难把握学习率的大小。因此，相关学者提出了，随着网络训练的进行，可以自适应地调整学习速率(某些情况下，可能是每一个超参数)的算法。

在本章中，我们将回顾自适应学习率相关算法。

自适应学习率

为了理解本节中的每一种优化算法，我们将用伪代码——特别是更新步骤，来表示。本章的大部分内容来自于Karpathy[26]和Ruder[27]对优化方法的概述文章。在此基础上，对原文描述内容做一定的修改，使内容更易于理解。

Vanilla SGD

首先，让我们看一看我们已经熟悉的算法—— Vanilla SGD（就是我们常见的批量梯度下降法）的更新阶段:

1	W += -lr * dW

其中:

W：模型权重矩阵
lr:：学习率
dW：W的梯度

学习率lr是固定的。当然只要学习率足够小，模型的loss会在训练中减少[太大可能出现loss增大情况]。在之前训练模型过程中，我们也使用了SGD的扩展，如momentum和Nesterov。

具体的随机梯度下降法流程，可以查看图7.1：

图7.1 SGD算法流程 ### Adagrad

我们将要学习的第一个自适应学习速率方法是Adagrad，由Duchi[28]等人提出。Adagrad是解决不同参数应该使用不同的更新速率的问题。Adagrad自适应地为各个参数分配不同学习率的算法。对于某些变量，可能已经优化到了极小值附近，但是，有的变量仍然处在梯度很大的地方，这时候一个统一的全局学习率是可能出现问题的。如果学习率太小，则梯度很大的变量会收敛很慢，如果梯度太大，已经优化差不多的变量可能会不稳定。AdaGrad的基本思想是对每个变量用不同的学习率，这个学习率在一开始比较大，用于快速梯度下降。随着优化过程的进行，对于已经下降很多的变量，则减缓学习率，对于还没怎么下降的变量，则保持一个较大的学习率。

下面我们可以看到Adagrad更新的伪代码表示:

1 2	cache += (dW ** 2) w += -lr * dW / (np.sqrt(cache) + eps)

你会发现第一个参数是cache——这个变量主要是在mini-batch更新过程中，计算每个参数的梯度的平方和[累加和]。通过cache变量，我们可以看到哪些参数经常更新，哪些参数不经常更新。第2行代码，我们将lr * dW除以cache的平方根(eps一般是一个很小的值，作用是防止分母为0)。不同的参数，其cache值是不同的，因此通过cache，我们可以自适应地更新网络中的参数。从上伪代码中可以看到，随着优化过程的进行，对于已经下降很多的变量，则减缓学习率，对于还没怎么下降的变量，则保持一个较大的学习率。Adagrad的主要好处是，我们不再需要手动调优学习率——大多数实践中，Adagrad算法的初始学速率一般设置为0.01，并允许算法在每个参数的调优学习速率。

在机器学习的应用中，Adagrad非常适合样本稀疏的问题，因为稀疏的样本下，每次梯度下降的方向，以及涉及的变量都可能有很大的差异。Adagrad的缺点是虽然不同变量有了各自的学习率，但是初始的全局学习率还是需要手工指定。如果全局学习率过大，优化同样不稳定；而如果全局学习率过小，我们知道的，将一个小数字(梯度)除以一个很大的数字(cache)将会得到一个非常小的值，因为Adagrad的特性，随着优化的进行，学习率会越来越小，很可能还没有到极值就停滞不前了，网络的更新能力会越来越弱，能学到的更多知识的能力也越来越弱。

总的来说，我们发现Adagrad存在问题，即随着优化的进行，分母中的平方梯度累加和cache不断变大，整个训练过程中的学习率将继续下降，最终降至零，完全停止训练，这就是为什么现在我们很少看到Adagrad用于训练深度神经网络。但是，有必要回顾一下，以便我们能够理解Adagrad算法的扩展。

具体的Adagrad算法流程，可以查看图7.2：

图7.2 Adagrad算法流程 ### Adadelta

Adadelta算法是由Zeiler在2012年的论文《ADADELTA: An Adaptive Learning Rate Method 》[29]提出。Adadelta是对Adagrad的扩展，以处理Adagrad学习率一直单调递减的问题。

在Adagrad算法中，Adagrad会累加之前所有的梯度平方，即cache会不断的增加。但是，Adadelta只累加固定大小的项，并且也不直接存储这些项。仅仅是近似计算对应的平均值——实际实现时，梯度和是递归的定义成历史梯度平方的衰减平均值。即：

$n_{t} = v * n_{t-1} + (1- v) * g^2_{t}$

$\Delta \theta_{t} = - \frac{\eta}{\sqrt{n_{t} + \epsilon}} * g_{t}$

因此，Adadelta可以被视为Adagrad的改进，然而，与之密切相关的RMSprop算法(它也执行cache衰减)通常比Adadelta更受欢迎。

RMSprop

RMSprop算法是一个非常高效的算法，它是Geoffrey Hinton在Coursera课程[2]中提到的一种(未发表的)优化算法。与Adadelta类似，RMSprop试图通过将对cache计算指数加权移动平均而不是计算所有过去cache的累加带来的负面影响。

让我们来看看RMSprop的更新过程伪代码:

1 2	cache = decay_rate * cache + (1 - decay_rate) * (dW *2) W += - lr dW / (np.sqrt(cache) + eps)

你会注意到，RMSprop对权重矩阵W的更新与Adagrad的更新是一样的——主要是cache的更新。其中decay_rate，通常定义为 $\rho$ ，一般设置为0.9。而唯一不同的是就在于累积平方梯度的求法不同。RMSProp算法不是像AdaGrad算法那样暴力直接的累加平方梯度，而是加了一个衰减系数来控制历史信息的获取多少。见下：

$\gamma \leftarrow \rho \gamma + )1-\rho) g \odot g$

鉴于神经网络都是非凸条件的，RMSProp在非凸条件下结果更好。通过指数衰减的移动平均计算梯度累积，可以丢弃时间间隔较大的历史信息。经验上，RMSProp被证明是一个有效且实用的深度学习优化算法。

除了SGD，RMSprop可以说是最近深度学习文献中使用最多的优化算法，然而，我们将要讨论的下一个优化方法——Adam，现在使用更多。

具体的RMSprop算法流程，可以查看图7.3：

图7.3 RMSprop算法流程 ### Adam

Kingma和Ba在2014年的论文《Adam: A Method for Stochastic Optimization》中提出的Adam(自适应矩估计)优化算法，本质上只是添加了动量的RMSprop。具体的更新伪代码如下：

1
2
3

m = beta1 * m + (1-beta1) * dW
v = beta2 * v + (1- beta2) * (dW ** 2)
x += -lr * m / (np.sqrt(v) +eps)

m和v的值类似于SGD的momentum，依赖于t-1时刻之前的值，m表示梯度的第一时刻平均值，v表示梯度的第二时刻非中心方差值。

Adam算法同时获得了 AdaGrad 和 RMSProp 算法的优点。Adam 不仅如 RMSProp 算法那样基于一阶矩均值计算适应性参数学习率，它同时还充分利用了梯度的二阶矩均值（即有偏方差/uncentered variance）。具体来说，Adam算法计算了梯度的指数移动均值（exponential moving average），其中由超参数 beta1 和 beta2 控制了这些移动均值的衰减率。

具体的Adam算法流程，可以查看图7.4：

图7.4 Adam算法流程在实际应用中，Adam方法效果良好。与其他自适应学习率算法相比，其收敛速度更快，学习效果更为有效，而且可以纠正其他优化技术中存在的问题，如学习率消失、收敛过慢或是高方差的参数更新导致损失函数波动较大等问题。

Nadam

就像Adam是带有momentum的RMSprop, Nadam是带有Nesterov加速度的RMSprop。Nadam是由斯坦福大学的博士生Timothy Dozat提出的。我们通常不会看到在实际应用中使用Nadam，但重要的是要理解Adam的扩展确实存在。

如何选择优化算法

给定所有优化算法，您应该选择哪个?其实答案是非常不确定——2014年，Schaul等人在2014发表的《Unit tests for Stochastic Optimization》，其中试图对许多优化方法进行了测试，发现自适应学习率算法表现良好，但没有明确的哪一个是最好的。

深度学习优化算法(以及如何选择它们)仍然是一个开放的研究领域，而且可能会持续很多年。因此，与其针对数据尝试每一种优化算法，然后找到一个有用的，还不如掌握两种或三种优化算法。深度学习项目的成功通常是优化算法(以及相关参数)和研究人员如何熟练地“驱动”算法的结合。

应该了解的三种优化算法: SGD, Adam, and RMSprop

考虑到自适应学习率算法(如RMSprop和Adam)的成功，你可能会忽略SGD算法，把它当作一种过时的工具。毕竟，“更好”的方法还是存在的，不是吗?

然而，忽视SGD算法将是一个巨大的错误。看看最近关于图像分类数据集的最新的深度学习算法，比如ImageNet: AlexNet[6]， VGGNet[11]， squeezeNet[32]， Inception[17]， ResNet[33]——这些最新的网络结构都是使用SGD进行训练的。

既然自适应学习率算法很好，为什么还使用SGD进行训练呢？我们可以清楚地看到，应用自适应学习速率算法(如RMSprop和Adam ），可以让网络更快地收敛。然而，收敛速度虽然重要，但并不是最重要的因素——模型的超参数仍然更加重要。在给定优化器（以及相关的模型）情况下，如果你不能将超参数调优到最佳，那么你的网络将永远不会获得合理的准确度。

虽然SGD的收敛速度比自适应学习速率算法要慢，但它也是一个更深入研究的算法。研究人员对SGD更为熟悉，多年来一直使用它来训练网络。

例如，一位职业赛车手，他驾驶同一款赛车的车型和型号已经有五年了。然后，有一天，司机的赞助商改变了主意，逼他们开一辆新车且没有时间练习新的赛车，车手会在他们的前几场比赛中表现出色吗？最可能的情况是，车手对车辆并不熟悉(但由于车手毕竟是专业人士，所以仍可能表现得比较合理)。

深度学习架构和优化算法也是如此。我们对给定的网络体系结构和优化算法进行的实验越多，我们就越能了解训练过程的复杂性。近60年以来，训练神经网络的算法基本都是以SGD为主，毫无疑问，SGD算法至今仍然在沿用——与模型的性能(准确度)相比，它的收敛速度并不重要。

简单地说：如果我们使用SGD算法在给定的数据集上获得更高的准确度，我们很可能会使用SGD，即使训练时间比使用Adam或RMSprop要慢1.5倍，因为我们更好地理解了模型的超参数。目前最常用的深度学习优化算法有:

SGD
RMSprop
Adam

在对新数据集建模或者新的模型测试时，建议优先使用SGD算法。在某些情况下。它可能会获得很好的效果，当然，也存在某些情况下，结果很差。你可以通过特定的优化算法了解更多的深度学习问题，以及对相关超参数进行调优。记住，深度学习既是科学又是艺术——掌握优化算法绝对是一门需要大量实践的艺术。通过本文，你还可以选择RMSprop或Adam。

我个人建议在优先学习Adam，以我的经验来看，在大多数情况下，Adam的性能都要优于RMSprop。