
数学推理的 AI 新突破:NVIDIA 的 OpenMath-Nemotron 系列震撼登场! 原创
在 AI 的世界里,数学推理一直是个让人又爱又恨的难题。为啥呢?因为它不仅需要理解抽象的概念,还得精准地进行多步逻辑推理。以前的语言模型,虽然生成文本很流畅,但遇到复杂的数学问题,就像让一个文科生去解奥数题,常常无从下手。不过,最近 NVIDIA 发布的 OpenMath-Nemotron 系列模型,直接把这个问题给解决了!今天,咱们就来好好聊聊这个厉害的 AI 新星。
数学推理,为啥这么难?
数学推理就像是 AI 领域的一座高山。它需要 AI 不仅要理解数学概念,还要像人类一样进行逻辑推理。比如,解决一个复杂的几何题,不仅要记住公式,还得知道怎么一步步推导。传统的语言模型虽然能生成很流畅的文本,但面对这种需要深度逻辑的数学问题,就显得力不从心了。这就像是让一个擅长写散文的人去解复杂的数学题,难度可想而知。
NVIDIA 的新武器:OpenMath-Nemotron 系列
NVIDIA 这次发布的 OpenMath-Nemotron 系列模型,可以说是专门为数学推理量身定制的。这个系列包括了两个版本:OpenMath-Nemotron-32B 和 OpenMath-Nemotron-14B-Kaggle。它们都是基于 Qwen 家族的 Transformer 模型,通过大规模的微调训练,专门针对数学问题进行了优化。
OpenMath-Nemotron-32B:旗舰版的强大力量
OpenMath-Nemotron-32B 是这个系列的旗舰版本,拥有 328 亿个参数,采用了 BF16 张量操作,硬件利用效率极高。它是通过对 Qwen2.5-32B 在 OpenMathReasoning 数据集上进行微调训练而成的。这个数据集包含了来自数学竞赛和标准化考试的高难度问题,可以说是为数学推理量身定制的。
这个模型在多个严格的基准测试中都取得了顶尖的成绩。比如,在 2024 年和 2025 年的美国数学邀请赛(AIME)和哈佛-麻省理工数学竞赛(HMMT)中,它的表现都超过了之前的顶尖模型。在工具集成推理(TIR)模式下,它在 AIME24 上的平均通过率达到了 78.4%,多数投票准确率更是高达 93.3%。
三种推理模式,满足不同需求
为了让这个模型适应不同的推理场景,OpenMath-Nemotron-32B 支持三种不同的模式:思维链(CoT)、工具集成推理(TIR)和生成式解选择(GenSelect)。
- 思维链(CoT)模式:这个模式会先生成中间的推理步骤,然后再给出最终答案。在 AIME24 上,它的通过率达到了 76.5%。
- 生成式解选择(GenSelect)模式:这个模式会生成多个候选解,然后选择最一致的答案。在 AIME24 上,它的准确率达到了惊人的 93.3%。
这三种模式让用户可以根据需求平衡解释的丰富性和答案的精确性,无论是需要透明度的研究环境,还是需要速度和可靠性的生产环境,都能找到合适的解决方案。
OpenMath-Nemotron-14B-Kaggle:小而精的竞赛利器
除了 32B 版本,NVIDIA 还发布了 OpenMath-Nemotron-14B-Kaggle,这是一个拥有 148 亿参数的模型,专门针对竞赛场景进行了优化。它在 AIMO-2 Kaggle 竞赛中获得了第一名,这个竞赛专注于解决高级数学问题。通过调整训练数据,使其更符合竞赛的格式和难度,这个模型展现出了极高的适应性。
在 AIME24 上,14B-Kaggle 模型在 CoT 模式下的通过率达到了 73.7%,在 GenSelect 模式下提升到了 86.7%。在 AIME25 上,它的通过率达到了 57.9%(多数投票为 64.3%),在 HMMT-24-25 上达到了 50.5%(多数投票为 64.8%)。这些数据表明,即使在参数更少的情况下,这个模型依然能够提供高质量的解决方案,非常适合资源受限或需要低延迟的场景。
开源管道,让开发更轻松
NVIDIA 为这两个模型提供了完整的开源管道,包括数据生成、训练流程和评估协议。这些工作流程被集成到了 NVIDIA 的 NeMo-Skills 框架中,提供了 CoT、TIR 和 GenSelect 推理模式的参考实现。开发者可以通过示例代码快速搭建 Transformer 流水线,配置数据类型和设备映射,并解析模型输出,从而快速开发出查询这些模型的应用程序。
高效的硬件优化
这两个模型都经过了优化,可以在 NVIDIA 的 GPU 架构上高效运行,从 Ampere 到 Hopper 微架构,都利用了高度优化的 CUDA 库和 TensorRT 优化。对于生产部署,用户可以通过 Triton 推理服务器实现低延迟、高吞吐量的集成,无论是网络服务还是批量处理流程都能轻松应对。BF16 张量格式的采用,平衡了数值精度和内存占用,使得这些大规模模型能够在 GPU 内存限制内运行,同时在各种硬件平台上保持强大的性能。
未来展望:数学推理的新方向
NVIDIA 的 OpenMath-Nemotron 系列模型不仅在当前的数学推理任务中表现出色,还为未来的发展指明了方向。未来,这些模型可能会扩展到更高级的大学数学,支持多模态输入(例如手写方程),并与符号计算引擎更紧密地集成,以验证和增强生成的解决方案。
总结:数学推理的新时代
NVIDIA 的 OpenMath-Nemotron 系列模型,通过针对数学推理的专项微调,成功解决了语言模型在数学推理上的短板。32B 参数版本在多个基准测试中取得了顶尖成绩,提供了三种推理模式以平衡解释的丰富性和答案的精确性;14B-Kaggle 版本则在竞赛场景中表现出色,展现了在更小参数规模下的高效性。这两个模型都通过开源管道实现了完全可复现性,并通过 NVIDIA 的 NeMo-Skills 框架提供了所有推理模式的参考实现。它们不仅在硬件上进行了优化,还为未来的高级数学应用奠定了基础。
无论是 AI 辅助教学系统、学术竞赛准备工具,还是需要形式化或符号推理的科学计算工作流程,OpenMath-Nemotron 系列模型都展现出了巨大的潜力。随着技术的不断进步,我们有理由相信,数学推理的 AI 新时代已经到来!
本文转载自公众号Halo咯咯 作者:基咯咯
原文链接:https://mp.weixin.qq.com/s/YNqjkIKol63aLdLiAJFK1A
