本文从梯度下降(Gradient Descent, GD)开始,讲述深度学习中的各种优化算法
参考文章:【干货】深度学习必备:随机梯度下降(SGD)优化算法及可视化
三种梯度下降框架
随机梯度下降
核心思想
- 每次从随机从训练集中选择一个训练样本来计算误差,进而更新模型参数
- 单次迭代时参数移动方向可能不太精确甚至相反,但是最终会收敛
- 单次迭代的波动也带来了一个好处,可以到达一个更好的局部最优点,甚至到达全局最优点
参数更新公式
Stochastic Gradient Descent, SGD
- 公式: \(\theta=\theta-\lambda\frac{\partial L(\theta;x_{i};y_{i})}{\partial \theta}\)
- 其中:\(L(\theta;x_{i};y_{i})=L(f(\theta;x_{i}),y_{i})\)
批量梯度下降
Batch Gradient Descent, BGD
核心思想
- 每次使用全量的训练集样本(假设共m个)来计算误差,进而更新模型参数
- 每次参数能够朝着正确的方向移动
- 每次遍历所有数据,耗费时间较长
参数更新公式
- 公式: \(\theta=\theta-\lambda\frac{\partial L(\theta;x_{1:m};y_{1:m})}{\partial \theta}\)
- 一般来说: \(L(\theta;x_{1:m};y_{1:m}) = \frac{1}{m}\sum_{i=1}^{m} L(\theta;x_{i};y_{i})\)
小批量梯度下降
核心思想
- 每次从随机从训练集中选择k(k < m)个训练样本来计算误差,进而更新模型参数
- 介于SGD和BGD之间
- 波动小
- 内存占用也相对较小
参数更新公式
Mini-Batch Gradient Descent, MBGD
- 公式: \(\theta=\theta-\lambda\frac{\partial L(\theta;x_{i:i+k};y_{i:i+k})}{\partial \theta}\)
- 一般来说: \(L(\theta;x_{1:k};y_{1:k}) = \frac{1}{k}\sum_{i=1}^{k} L(\theta;x_{i};y_{i})\)
总结
优点
- 梯度下降算法应用广泛,算法效果很好
缺点
学习速率
- 大小很难确定,太大容易震荡,太小则收敛太慢
- 学习速率一般为定值,有时候会实现为逐步衰减
- 但是无论如何,都需要事前固定一个值,因此无法自适应不同的数据集特点
局部最优
- 对于非凸的目标函数,容易陷入局部极值点中
- 比局部极值点更严重的问题:有时候会嵌入鞍点?
SD算法的优化
Momentum法(动量法)
核心思想
- 考虑一种情况,在峡谷地区(某些方向比另一些方向陡峭很多)
- SGD(或者MBGD,实际上,SGD是特殊的MBGD,平时可以认为这两者是相同的东西)会在这些放附近振荡,从而导致收敛速度变慢
- 这里最好的例子是鞍点,鞍点出的形状像一个马鞍,一个方向两头上翘,一个方向两头下垂,当上翘的方向比下垂的方向陡峭很多时,SDG和MDG等方法容易在上翘方向上震荡
- 此时动量可以使得
- 当前梯度方向与上一次梯度方向相同的地方进行加强,从而加快收敛速度
- 当前梯度方向与上一次梯度方向不同的地方进行削减,从而减少振荡
- 动量可以理解为一个从山顶滚下的小球,遇到新的力(当前梯度)时,会结合之前的梯度方向决定接下来的运动方向
参数更新公式
- 公式: \(\theta=\theta-m_{t}\)
- \(m_{t}\)表示当前下降方向, \(m_{t-1}\)表示上一次的下降方向
- \(m_{t}=\gamma m_{t-1}+\lambda\frac{\partial L(\theta;x_{i};y_{i})}{\partial \theta}\)
- \(\gamma<1\),值一般取0.9
- \(\gamma m_{t-1}\)是动量项
- \(\gamma\)是衰减量
- \(\lambda\)是学习率
图示
小结
- 学习过程
- 从训练集中的随机抽取一批容量为m的样本\({x_{1},…,x_{m}}\),以及相关的输出\({y_{1},…,y_{m}}\)
- 计算梯度和误差,更新v和参数\(\theta\)
NAG,涅斯捷罗夫梯度加速法
Nesterov Accelerated Gradient,NAG
核心思想
- 继续考虑普通的SDG算法,添加了Momentum,此时从山顶滚下的球会盲目的选择斜坡
- 更好的方式是在遇到向上的斜坡时减慢速度
- NAG在计算梯度时首先获取(近似获得)未来的参数而不是当前参数,然后计算未来参数对应的损失函数的梯度
- NAG在预测了未来的梯度后,根据未来(\(\theta - \gamma m_{t-1}\))梯度方向和之前梯度的方向决定当前的方向, 这样可以保证在遇到下一点为上升斜坡时适当减慢当前点的速度(否则可能由于惯性走上斜坡, 提前知道\(\theta - \gamma m_{t-1}\)处的梯度, 从而保证不要走上去), 从而找到了比Momentum超前的更新方向
- 对比: Momentum是根据当前梯度方向和之前梯度方向决定当前的方向
参数更新公式
- 公式: \(\theta=\theta-m_{t}\)
- \(m_{t}=\gamma m_{t-1}+\lambda\frac{\partial L(\theta - \gamma v_{t-1};x_{i};y_{i})}{\partial \theta}\)
- NAG使用的是未来的梯度方向(Momentum使用的是当前梯度方向)和之前的梯度方向
图示
- Momentum(动量)法首先计算当前的梯度值(小蓝色向量),然后在更新的积累向量(大蓝色向量)方向前进一大步
- NAG 法则首先(试探性地)在之前积累的梯度方向(棕色向量)前进一大步,再根据当前地情况修正,以得到最终的前进方向(绿色向量)
- 这种基于预测的更新方法,使我们避免过快地前进,并提高了算法地响应能力(responsiveness),大大改进了 RNN 在一些任务上的表现
- 公式中\(-\gamma m_{t-1}\)对应BC向量
- \(\theta-\gamma m_{t-1}\)就对应C点(参数)
小结
- Momentum和NAG法可以使得参数更新过程中根据随时函数的斜率自适应的学习,从而加速SGD的收敛
- 实际应用中,NAG将比Momentum收敛快很多
- 学习过程
- 从训练集中的随机抽取一批容量为m的样本\({x_{1},…,x_{m}}\),以及相关的输出\({y_{1},…,y_{m}}\)
- 计算梯度和误差,更新v和参数\(\theta\)
Adagrad
核心思想
- 对于较少出现的特征,使用较大的学习率更新,即对低频的参数给予更大的更新
- 对于较多出现的特征,使用较小的学习率更新,即对高频的参数给予更小的更新
- 很适合处理稀疏数据
参数更新公式
- 计算梯度
- 分量形式: \(g_{t,k} = \frac{\partial L(\theta;x_{i};y_{i})}{\theta}|_{\theta = \theta_{t-1,k}}\)
- \(g_{t,k}\)是指第t次迭代时第k个参数\(\theta_{t-1, k}\)的梯度
- 有些地方会这样表达: \(g_{t,k} = \frac{\partial L(\theta_{t-1,k};x_{i};y_{i})}{\theta_{t-1,k}}\)
- 式子中使用\(\theta_{t-1, k}\)在梯度中,事实上不够严谨, 容易让人误解分子分母都不是函数,而是一个确定的值, 事实上我们是先求了导数然后再带入 \(\theta = \theta_{t-1}\) 的
- 向量形式: \(g_{t} = \frac{\partial L(\theta;x_{i};y_{i})}{\partial \theta}|_{\theta=\theta_{t-1}}\)
- 分量形式: \(g_{t,k} = \frac{\partial L(\theta;x_{i};y_{i})}{\theta}|_{\theta = \theta_{t-1,k}}\)
- 此时普通的SGD如下更新参数
- 分量形式:\(\theta_{t,k} = \theta_{t-1,k} - \lambda g_{t,k}\)
- 向量形式:\(\theta_{t} = \theta_{t-1} - \lambda g_{t}\)
- 而Adagrad对学习率\(\lambda\)根据不同参数进行了修正
- 分量形式:\(\theta_{t,k} = \theta_{t-1,k} - \frac{\lambda}{\sqrt{G_{t,kk}+\epsilon}} g_{t,k}\)
- \(G_{t,kk}=\sum_{r=1}^{t}(g_{r,k})^{2}\)
- 向量形式:\(\theta_{t} = \theta_{t-1} - \frac{\lambda}{\sqrt{G_{t}+\epsilon}}\bigodot g_{t}\)
- \(G_{t}=\sum_{r=1}^{t}g_{r}\bigodot g_{r}\)
- \(\bigodot\)表示按照对角线上的值与对应梯度相乘
- 进一步可以简化写为: \(G_t = G_{t-1} + g_t^2\)
- 注意: 这里\(g_t^2\)是指向量按照维度分别相乘, 计算后还是原始向量维度
- G是一个对角矩阵,对角线上的元素(\(G_{k,k}\))是从一开始到k次迭代目标函数对于参数(\(\theta_{k}\))的梯度的平方和
- G的累计效果保证了出现次数多的参数(\(\theta_{k}\))对应的对角线上的元素(\(G_{k,k}\))大,从而得到更小的更新
- \(\epsilon\)是一个平滑项,用于防止分母为0
- 分量形式:\(\theta_{t,k} = \theta_{t-1,k} - \frac{\lambda}{\sqrt{G_{t,kk}+\epsilon}} g_{t,k}\)
- 总结参数更新公式:
- \(\theta_{t} = \theta_{t-1} - \frac{\lambda}{\sqrt{G_{t}+\epsilon}} g_{t}\)
- \(g_{t} = \frac{\partial L(\theta;x_{i};y_{i})}{\partial \theta }|_{\theta = \theta_{t-1}}\)
- \(G_t = G_{t-1} + g_t^2\)
小结
- 在分母上累计了平方梯度和,造成训练过程中G的对角线元素越来越大,最终导致学习率非常小,甚至是无限小的值,从而学不到东西
- 学习过程
- 从训练集中的随机抽取一批容量为m的样本\({x_{1},…,x_{m}}\),以及相关的输出\({y_{1},…,y_{m}}\)
- 计算梯度和误差,更新G的每个元素,再根据G以及梯度计算参数更新量
Adadelta
核心思想
- 是Adagrad的一个扩展,目标是解决Adagrad学习率单调下降的问题
- 解决方案:只累计一段时间内的平方梯度值?
- 实际上实现是累加时给前面的平方梯度和一个衰减值
- 方法名delta的来源是选取部分
参数更新公式
- 将矩阵G的每一项变成当前梯度平方加上过去梯度平方的衰减值(指数衰减)即可
- 指数衰减:前n-1项的系数是衰减率的n-1次方
- 实现指数衰减
- 在Adagrad的基础上修改为: \(G_t = \gamma G_{t-1} + (1-\gamma)g_t^2\)
- 注意: 这里\(g_t^2\)是指向量按照维度分别相乘, 计算后还是原始向量维度
- 我们通常也把 \(G_t\) 表达为 \(E[g^2]_t\)
- 因为修改后的 \(G_t\)可以视为于对 \(g_t^2\) 求期望(不同的\(t\)概率权重不一样的分布的期望)
- 进一步表达为: \(E[g^2]_t = \gamma E[g^2]_{t-1} + (1-\gamma)g_t^2\)
小结
- 经过衰减后,G的每一项(忽略掉平滑项\(\epsilon\))相当于有权重的梯度均方差(Root Mean Square, RMS),后面RMSprop算法就用了这个RMS来命名
- 均方根的定义是:对所有数求平方和,取平均值(每一项的权重根据概率分布可以不同),再开方
- 学习过程
- 从训练集中的随机抽取一批容量为m的样本\({x_{1},…,x_{m}}\),以及相关的输出\({y_{1},…,y_{m}}\)
- 计算梯度和误差,更新G的每个元素,再根据G以及梯度计算参数更新量
RMSprop
Root Mean Square prop
核心思想
- 一种适应性学习率方法,至今未公开发表
- 是Adagrad的一个扩展,目标也是解决Adagrad学习率单调下降的问题
- RMS的来源是由于分母相当于(忽略掉平滑项\(\epsilon\))是梯度的均方根(Root Mean Squared, RMS)
参数更新公式
- 参见Adadelta
- RMSprop的本质是对Adadelta简单的取之前值和当前值的权重为0.9和0.1实现指数加权平均, 即 \(\gamma = 0.9\)
- 有些地方也说RMSprop权重取的是0.5和0.5实现指数加权平均即 \(\gamma = 0.5\)
- 学习率\(\lambda\)一般取值为0.001
小结
- RMSprop是Adadelta的一种特殊形式
- Adagrad的分母不能算是均方差(即使忽略平滑项\(\epsilon\)),因为这里没有取平均值的操作
- 学习过程
- 从训练集中的随机抽取一批容量为m的样本\({x_{1},…,x_{m}}\),以及相关的输出\({y_{1},…,y_{m}}\)
- 计算梯度和误差,更新G的每个元素,再根据G以及梯度计算参数更新量
Adam
Adaptive Moment Estimation
核心思想
- 一种适应性学习率方法,相当于 RMSprop + Momentum + Bias Correction
- 像Adadelta和RMSprop一样存储了梯度的平方的指数衰减平均值
- 像Momentum一样保持了过去梯度的指数衰减平均值
- Bias Correction是为了得到期望的无偏估计
参数更新公式
- \(\theta_{t} = \theta_{t-1} - \frac{\lambda}{\sqrt{\tilde{v}_t+\epsilon}} \tilde{m}_t\)
- \(\tilde{v}_t=\frac{v_{t}}{1-\beta_{1}^{t}}\)
- \(\tilde{m}_t=\frac{m_{t}}{1-\beta_{2}^{t}}\)
- 梯度平方的指数衰减:\(v_{t} = \beta_{1}v_{t-1}+(1-\beta_{1})g_{t}^{2}\)
- 梯度向量的指数衰减:\(m_{t} = \beta_{2}m_{t-1}+(1-\beta_{2})g_{t}\)
- \(m_t\) 和 \(v_t\) 是对梯度一阶矩估计和二阶矩估计
- \(m_t\) 和 \(v_t\) 可以看做是对期望 \(E[g]_t\) 和 \(E[g^2]_t\) 的估计
- \(\tilde{m}_t\) 和 \(\tilde{v}_t\) 是对 \(m_t\) 和 \(v_t\) 的 Bias Correction, 这样可以近似为对对期望 \(E[g]_t\) 和 \(E[g^2]_t\) 的无偏估计
小结
- 超参数设定推荐
- 梯度平方衰减率:\(\beta_{1}=0.999\)
- 梯度动量衰减率:\(\beta_{2}=0.9\)
- 平滑项:\(\epsilon=10e^-8=1*10^{-8}\)
- 一阶动量v,初始化为0
- 二街动量m,初始化为0
- 学习过程
- 从训练集中的随机抽取一批容量为m的样本\({x_{1},…,x_{m}}\),以及相关的输出\({y_{1},…,y_{m}}\)
- 计算梯度和误差,更新v和m,再根据v和m以及梯度计算参数更新量
各种优化方法的比较
鞍点
- SGD optimization on saddle point
等高线表面
SGD optimization on loss surface contours
上面两种情况都可以看出,Adagrad, Adadelta, RMSprop 几乎很快就找到了正确的方向并前进,收敛速度也相当快,而其它方法要么很慢,要么走了很多弯路才找到
由图可知自适应学习率方法即 Adagrad, Adadelta, RMSprop, Adam 在这种情景下会更合适而且收敛性更好
如何选择
- 如果数据是稀疏的,就用自适用方法,即 Adagrad, Adadelta, RMSprop, Adam
- 因为他们能够为出现更新次数少(确切的说是梯度累计结果小)的特征分配更高的权重
- RMSprop, Adadelta, Adam 在很多情况下的效果是相似的
- Adam 可解释为 RMSprop + Momentum + Bias Correction
- 随着梯度变的稀疏,Adam 比 RMSprop 效果会好
- 整体来讲,Adam 是最好的选择
- 很多论文里都会用 SGD,没有 momentum 等, SGD 虽然能达到极小值,但是比其它算法用的时间长,而且可能会被困在鞍点, 在不正确的方向上来回震荡
- 如果需要更快的收敛,或者是训练更深更复杂的神经网络,需要用一种自适应的算法