鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

梯度之上—Hessian矩阵：利用二阶导数的 “牛顿法” 突破梯度下降法的局限性

南夏的算法驿站

发布于 2025-7-7 06:44

浏览

0收藏

梯度下降法是仅使用梯度信息的一阶优化算法，忽略了曲率信息，计算简单且可能收敛慢。因此，牛顿法使用Hessian矩阵结合了局部曲率信息，自适应地调整更新步长，进一步加速收敛。本文将从梯度下降法的局限性出发，详细介绍牛顿法的数学推导过程。（全文1300余字，感兴趣可点赞、推荐、转发、关注，将持续更新！！！）

1、梯度下降法的局限性

(1) 梯度下降法沿参数空间中某一点处的负梯度方向进行参数更新。同时，梯度下降法的本质是基于一阶泰勒展开的局部线性近似。理想情况下，当每一次参数更新的步长无限小时，函数值的下降路径无限逼近于原函数。但是，实际应用中，步长越小，计算量越大，故每一次参数更新必有确定的步长，这也导致了函数值的实际下降路径必然与最优下降路径存在差异，从而为梯度下降法的优化带来了可能性。

梯度之上—Hessian矩阵：利用二阶导数的 “牛顿法” 突破梯度下降法的局限性-AI.x社区

梯度之上—Hessian矩阵：利用二阶导数的 “牛顿法” 突破梯度下降法的局限性-AI.x社区

(b) 总之，期望找到一种方法，既能保证一定的学习步长，又能更好地贴近最优下降路径。

2、牛顿法

梯度之上—Hessian矩阵：利用二阶导数的 “牛顿法” 突破梯度下降法的局限性-AI.x社区

梯度之上—Hessian矩阵：利用二阶导数的 “牛顿法” 突破梯度下降法的局限性-AI.x社区

(2) 与基于一阶泰勒展开实现局部线性逼近的梯度下降法类似，若要找到一个二次曲线去逼近目标函数，常用的方法是对目标函数在当前参数点处进行二阶泰勒展开（理论上越高阶越好，但是计算量也越大）。

梯度之上—Hessian矩阵：利用二阶导数的 “牛顿法” 突破梯度下降法的局限性-AI.x社区

3、牛顿法的有效性和局限性

(1) 相比于标准的梯度下降法，牛顿法利用了二阶导数（即矩阵），来描述目标函数的局部曲率，自适应地调整更新步长，加速收敛。

(a) 众所周知，函数在某点的一阶导数为切线的斜率。那么，二阶导数为一阶导数的导数，量化了函数切线斜率随自变量变化的速率，便可反映函数局部的曲率。

(b) 二阶导数越大，表示斜率变化越快（如急转弯），曲率大；反之越小。

(2) 牛顿法每次参数更新都要计算一个矩阵，计算量太大，故其实用性较差。

梯度之上—Hessian矩阵：利用二阶导数的 “牛顿法” 突破梯度下降法的局限性-AI.x社区

参考资料

[1] 高等数学第八版，同济大学数学科学院

[2] https://www.bilibili.com/video/BV1r64y1s7fU?spm_id_from=333.788.videopod.sections&vd_source=4cb33b31ca5b5cd06b5f94aee649ca78

本文转载自南夏的算法驿站，作者：赵南夏

标签

赞

收藏

回复

举报

回复

相关推荐

今日arXiv最热大模型论文：超越LoRA，北京大学提出预训练模型非梯度优化法

pangguiyu • 4109浏览 • 0回复
OpenAI CEO奥特曼25日最新演讲：只专注于AI局限性的创业者必死！AI也不会违背商业的定律

51CTO技术栈 • 3634浏览 • 0回复
与 ChatGPT 的对话：技术、应用和局限性

angel • 4777浏览 • 0回复
苹果发布高效双EMA梯度优化方法，适配Transformer、Mamba模型

Aceryt • 3100浏览 • 0回复
梯度累计bug造成大范围影响

kede96 • 3838浏览 • 0回复
克服机器学习转换器的局限性——从位置嵌入到RoPE和ALiBi方法

51CTO内容精选 • 3848浏览 • 0回复
什么是神经网络—终于把梯度下降搞明白了！

人工智能训练营 • 3205浏览 • 0回复
突破传统语言模型的局限：Meta AI的全新大概念模型（LCMs）解读

Halo咯咯 • 3493浏览 • 0回复
深度学习训练崩溃的真凶：梯度消失与梯度爆炸背后的秘密

人工智能训练营 • 4395浏览 • 0回复
神经网络之损失函数与优化函数——梯度下降

AI探索时代 • 3442浏览 • 0回复
一个强大的集成学习算法：梯度提升树！

宝宝数模AI • 3059浏览 • 0回复
GoRA: 基于梯度驱动的自适应低秩微调方法

顿数AI • 3670浏览 • 0回复
大模型推理能力的局限性

JavaEdge1 • 2533浏览 • 0回复
清华研究揭示RLVR局限性

arnoldzhw • 2204浏览 • 0回复
神经网络详解：传统机器学习在计算机视觉领域的局限性

人工智能训练营 • 1569浏览 • 0回复
MSCI：解决 CLIP 在组合式零样本学习中的固有局限性

AIRoobt • 2072浏览 • 0回复
Nesterov动量法：“走一步看两步” 的 “前瞻机制” 破局动量法的局限性

南夏的算法驿站 • 801浏览 • 0回复
一起聊聊基于相位导数校正的高分辨率时频分析算法 - 二阶同步压缩变换

步惊云_32 • 701浏览 • 0回复
AI 大语言模型LLM局限性评估

坦途于胸 • 2630浏览 • 0回复

南夏的算法驿站

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

RMSprop算法：引入“指数加权移动平均” 优化Adagrad算法 2025-09-05 00:17:00发布
Nesterov动量法：“走一步看两步” 的 “前瞻机制” 破局动量法的局限性 2025-07-27 23:42:36发布

热门推荐

Qwen3-Omni-30B-A3B-Instruct 部署实战保姆及教程（图片、语音、视频全模态识别） 0回复

阿里通义重磅开源 DeepResearch：让 AI 具备 “人类级研究能力” 的技术架构全景解析 0回复

2025年五大本地大模型，程序员必看！ 0回复

Cursor 1.3 ~ 1.6 版本更新全梳理：终端不再挂、Agent 更聪明、上下文更可控 0回复

GPU 网络基础，Part 2（MoE 训练中的网络挑战；什么是前、后端网络；什么是东西向、南北向流量） 0回复

上一篇：【深度学习】批归一化（BatchNorm）与层归一化（LayerNorm）：技术背景、原理及基于Pytorch的代码详解

下一篇： Nesterov动量法：“走一步看两步” 的 “前瞻机制” 破局动量法的局限性

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载