给大模型装上"认知工具",数学推理能力直接起飞

发布于 2025-6-27 00:02
浏览
0收藏

为GPT-4.1提供"认知工具"可将其在AIME2024上的表现从26.7%提升至43.3%。太惊人了!这个成绩已经非常接近o1-preview的水平。

论文提出了一种模块化、基于工具的方法来激发大语言模型的推理能力,灵感来源于认知科学。作者没有单纯依赖强化学习或思维链(CoT)提示,而是引入了一个框架,让大语言模型能够调用独立的"认知工具"来模块化和支撑内部推理过程。


给大模型装上"认知工具",数学推理能力直接起飞-AI.x社区图片

agent工具调用:这些工具封装了理解问题、回忆类似案例、检查答案和回溯等操作。系统采用agent工具调用的方式实现,允许大语言模型在推理过程中动态调用工具,无需额外的微调。千万不要低估一个连接了合适工具集的agent系统的威力。只需要一个好的框架就能完成强大的任务。

认知工具作为内部模块:每个工具(如理解问题、回忆相关内容、检查答案、回溯)都被构造为独立的提示模板,大语言模型可以根据需要调用。与传统工具使用(如计算器API)不同,这些工具在大语言模型自身的架构和内存中运行。这就是为什么我一直在说,能够交替进行思考和工具调用的推理模型将会解锁令人惊叹的应用。这也强调了以模块化方式构建agent的理念及其巨大价值。我培训过的AI开发者完全明白我在说什么。


给大模型装上"认知工具",数学推理能力直接起飞-AI.x社区图片

持续的性能提升:在AIME 2024、MATH500和AMC等数学推理基准测试中,认知工具管道显著提升了包括Qwen2.5、Llama3和GPT-4.1在内的各种模型的pass@1准确率。例如,Llama3.3-70B在AIME2024上从13.1%提升到29.8%,GPT-4.1从26.7%上升到43.3%,几乎匹敌经过强化学习训练的o1-preview推理模型的44.6%。


给大模型装上"认知工具",数学推理能力直接起飞-AI.x社区图片

优于认知提示:与之前的认知提示工作相比,模块化工具方法展现出更强的泛化能力和更少的推理干扰。工具可以灵活调用,每次调用都在干净的上下文窗口中运行,在Smolbenchmark上相比基线提升高达+27.2%的准确率。模块化提示非常有趣,值得密切关注。

可解释且可迁移:工具的模块化特性增强了透明度,其即插即用的设计允许在不同模型和基准测试间轻松迁移,几乎无需修改。该方法还通过展示中间推理步骤和决策来支持可解释性。

论文标题:Eliciting Reasoning in Language Models with Cognitive Tools

论文链接:​​​https://arxiv.org/abs/2506.12115​

本文转载自​​​AI帝国​​​,作者:无影寺

收藏
回复
举报
回复
相关推荐