Nesterov动量法:“走一步看两步” 的 “前瞻机制” 破局动量法的局限性

发布于 2025-7-27 23:42
浏览
0收藏

动量法通过引入历史梯度信息显著提升了收敛效率,却难以摆脱路径震荡与局部最优的桎梏。当梯度方向突变时,传统动量法如同盲目前行的旅人,只能依赖当前脚步调整方向,却常因惯性陷入反复震荡的困局。而Nesterov动量法的“前瞻机制”,犹如为优化过程装上预判未来的罗盘——它先沿历史动量方向跨出试探性一步,在预估位置重新校准梯度,实现对路径的动态修正。

本文将深入解析动量法的局限性与Nesterov的破局之道,揭示其如何通过“走一步看两步”的智慧,进一步优化梯度下降的轨迹。


1.动量法的局限性

(1)​​​ 动量法​​​在每次参数更新时引入历史梯度信息实现了​​​梯度下降法​​​的优化。但动量法在遇到下图所示的情况时存在一定的局限性。根据动量法的定义,在每个位置引入历史梯度向量修正当前负梯度向量以得到实际的梯度下降路径(从位置A到位置B再到位置C)。

Nesterov动量法:“走一步看两步” 的 “前瞻机制” 破局动量法的局限性-AI.x社区

(2) 可以发现,从位置A到位置B再到位置C的路径并非最优,若能在位置A时就提前预知位置B时的路径走向,那么便能在位置A时增大修正幅度,以实现更优的下降路径。

(3) 故如何做到提前预知下一步的路径走向,便是Nesterov动量法的精妙之处!

2.Nesterov动量法

(1) Nesterov动量法的核心改进在于引入“前瞻机制”,通过调整当前位置梯度计算的位置来优化参数更新方向,从而提高收敛速度和稳定性。

Nesterov动量法:“走一步看两步” 的 “前瞻机制” 破局动量法的局限性-AI.x社区

Nesterov动量法:“走一步看两步” 的 “前瞻机制” 破局动量法的局限性-AI.x社区

(3) 综上所述,Nesterov动量法的参数更新过程可表示如下:

Nesterov动量法:“走一步看两步” 的 “前瞻机制” 破局动量法的局限性-AI.x社区

(4) 总之,Nesterov动量法通过前瞻位置计算梯度,更贴近当前动量的实际路径,相当于对更新方向进行动态校正,减少无效更新。若历史梯度方向正确,Nesterov动量法会增大修正幅度,反之则会减小修正幅度,从而进一步抑制震荡,更快逼近最优点。

参考资料

[1] 伊恩·古德费洛 等,深度学习,人民邮电出版社

[2] https://www.bilibili.com/video/BV1r64y1s7fU?spm_id_from=333.788.videopod.sections&vd_source=4cb33b31ca5b5cd06b5f94aee649ca78

本文转载自​​​​南夏的算法驿站​​​​,作者:赵南夏

收藏
回复
举报
回复
相关推荐