想知道深度学习优化算法的原理？点我！快点我(2)

发布时间：2019-08-20 12:41 所属栏目：19 来源：读芯术

导读：RMS Prop是指均方根传播，与动量类似，它是一种抑制y轴运动的技术。前面的示例有助于理解其原理。为了更好地理解，这里将y轴表示为偏置b，把x轴表示为权重W。凭直觉而言，当用一个大数除以另一个数时，结果会变得

RMS Prop是指均方根传播，与动量类似，它是一种抑制y轴运动的技术。前面的示例有助于理解其原理。为了更好地理解，这里将y轴表示为偏置b，把x轴表示为权重W。

凭直觉而言，当用一个大数除以另一个数时，结果会变得很小。该例中,第一个大数为db，第二大数为加权平均db²。引入了两个新的变量Sdb和SdW，跟踪db²和dW²的加权平均。db和Sdb相除得到一个更小的值，它抑制了y轴的运动。引入Ⲉ避免出现除以零的错误。对于 x轴上W的值的更新也有类似的直觉。

值得注意的是，这里以y轴为偏置b, x轴为权值W，以便更好地理解和可视化参数的更新。也可用类似的方法消除由任何偏置b(b1, b2，…，bn)或权值W(W1, W2，…，Wn)或两者引起的任何波动。同样，由于只有参数更新方法发生了更改，也可使用小批量处理方法和均方根优化器(RMS optimizer)。

以上给出了使用RMS Prop作为优化算法时的基本策略。

AdaM

AdaM是指适应性动量。它使用单一方法结合动量和RMS prop，是一种强大而快速的优化器。也可利用误差修正方法解决加权平均计算中的冷启动问题(即加权平均值的前几个值与实际值相差太远)。V值包含动量逻辑,而S值包含RMS prop逻辑。

值得注意的是,计算中使用2个不同的β值。β1用于计算相关动量，而β2用于计算相关RMS prop。同样，由于只有参数更新方法发生了更改，所以也可使用小批量处理方法和AdaM 优化器。

以上给出了使用AdaM作为优化算法时的基本策略。

性能比较

图1

图2

损失曲面的轮廓及不同优化算法的时间演化

（编辑：ASP站长网）