加入收藏 | 设为首页 | 会员中心 | 我要投稿 应用网_丽江站长网 (http://www.0888zz.com/)- 科技、建站、数据工具、云上网络、机器学习!
当前位置: 首页 > 运营中心 > 建站资源 > 经验 > 正文

想知道深度学习优化算法的原理?点我!快点我

发布时间:2019-08-20 14:18:54 所属栏目:经验 来源:读芯术
导读:副标题#e# 深度学习是一个高度迭代的过程。必须尝试超参数的各种排列才能确定最佳组合。因此,在不影响成本的前提下,深度学习模式必须在更短的时间内进行训练。本文将解释深度学习中常用优化算法背后的数学原理。 优化算法 在算法f(x)中,优化算法可得到f(

RMS Prop是指均方根传播,与动量类似,它是一种抑制y轴运动的技术。前面的示例有助于理解其原理。为了更好地理解,这里将y轴表示为偏置b,把x轴表示为权重W。

想知道深度学习优化算法的原理?点我!快点我

凭直觉而言,当用一个大数除以另一个数时,结果会变得很小。该例中,第一个大数为db,第二大数为加权平均db²。引入了两个新的变量Sdb和SdW,跟踪db²和dW²的加权平均。db和Sdb相除得到一个更小的值,它抑制了y轴的运动。引入Ⲉ避免出现除以零的错误。对于 x轴上W的值的更新也有类似的直觉。

值得注意的是,这里以y轴为偏置b, x轴为权值W,以便更好地理解和可视化参数的更新。也可用类似的方法消除由任何偏置b(b1, b2,…,bn)或权值W(W1, W2,…,Wn)或两者引起的任何波动。同样,由于只有参数更新方法发生了更改,也可使用小批量处理方法和均方根优化器(RMS optimizer)。

想知道深度学习优化算法的原理?点我!快点我

以上给出了使用RMS Prop作为优化算法时的基本策略。

AdaM

AdaM是指适应性动量。它使用单一方法结合动量和RMS prop,是一种强大而快速的优化器。也可利用误差修正方法解决加权平均计算中的冷启动问题(即加权平均值的前几个值与实际值相差太远)。V值包含动量逻辑,而S值包含RMS prop逻辑。

值得注意的是,计算中使用2个不同的β值。β1用于计算相关动量,而β2用于计算相关RMS prop。同样,由于只有参数更新方法发生了更改,所以也可使用小批量处理方法和AdaM 优化器。

想知道深度学习优化算法的原理?点我!快点我

以上给出了使用AdaM作为优化算法时的基本策略。

性能比较

想知道深度学习优化算法的原理?点我!快点我
图1
想知道深度学习优化算法的原理?点我!快点我
图2

损失曲面的轮廓及不同优化算法的时间演化

(编辑:应用网_丽江站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读