微软重磅发布三大AI推理算法：突破大模型数学与逻辑推理瓶颈

发布于 2025-6-20 06:44

浏览

0收藏

6月18日凌晨，微软研究院发布三篇突破性论文，正式公开rStar-Math、LIPS、CPL三大算法，直击大语言模型（LLM）的核心痛点——数学推理与逻辑链能力不足。这些算法不仅适用于百亿参数大模型，也能显著提升小模型的推理性能，被业界称为“推理增强三件套”。

微软重磅发布三大AI推理算法：突破大模型数学与逻辑推理瓶颈-AI.x社区

一、rStar-Math：用蒙特卡洛树搜索实现“深度思考”

核心思想：将蒙特卡洛树搜索（MCTS）与代码验证结合，让大模型像人类一样“反复推演再下结论”。

微软重磅发布三大AI推理算法：突破大模型数学与逻辑推理瓶颈-AI.x社区

技术亮点：

代码增强的思维链（CoT）：

模型生成推理步骤时，同步输出Python代码并执行验证，仅保留代码执行通过的逻辑链。
实验显示，该方法在MATH数据集上的准确率提升23%。

偏好对训练（PPM）：

传统方法直接用Q值作为奖励信号，但噪声大、精度低。
rStar-Math提出“高Q值正样本+低Q值负样本”对比学习，让模型学会区分推理步骤的优劣。

四轮自我进化：

策略模型与奖励模型（PPM）通过迭代训练逐步升级，问题难度逐轮递增，最终覆盖复杂数学证明。

微软重磅发布三大AI推理算法：突破大模型数学与逻辑推理瓶颈-AI.x社区

论文地址："arXiv:2501.04519" (https://arxiv.org/pdf/2501.04519)

二、LIPS：数学证明的“符号计算+神经直觉”双引擎

微软重磅发布三大AI推理算法：突破大模型数学与逻辑推理瓶颈-AI.x社区

核心思想：将数学证明分解为符号缩放（严谨但有限）和神经重写（灵活但需筛选），二者协同突破传统方法的局限性。

微软重磅发布三大AI推理算法：突破大模型数学与逻辑推理瓶颈-AI.x社区

技术突破：

符号缩放：

基于不等式引理库（如AM-GM不等式）对目标式进行严格变形，但可能产生无效子目标。
通过SMT求解器自动验证缩放策略的有效性。

神经重写：

大模型负责生成等价变形策略（如分母有理化、变量替换），凭借“数学直觉”从无限可能中筛选最优路径。

两阶段筛选：

符号过滤：利用齐次性、解耦性等数学特性快速剔除无效目标。
神经排序：对剩余目标用大模型进行最终优先级排序。

论文地址："arXiv:2502.13834" (https://arxiv.org/pdf/2502.13834)

三、CPL：关键计划学习——让AI学会“抓重点”

核心思想：传统强化学习在跨任务泛化上表现不佳，CPL通过抽象计划空间搜索和关键步骤优化，实现推理能力的本质提升。

创新点：

计划空间搜索：

先生成高层次解题计划（如“先求导再积分”），而非直接输出具体公式，增强泛化性。

Step-APO优化：

改进DPO（直接偏好优化），引入优势估计权重，让模型识别对结果影响最大的关键步骤。
在代码生成任务中，关键步骤识别准确率提升37%。

论文地址："arXiv:2409.08642" (https://arxiv.org/pdf/2409.08642)

四、学术启示：AI推理的未来方向

微软此次提出的三大算法，共同指向LLM推理能力的下一代范式：

混合架构：符号计算（严谨性）+神经生成（灵活性）的结合不可逆。
自我进化：自动化迭代训练将成为模型能力跃迁的核心路径。
计划抽象：高层次推理规划将逐步取代“端到端暴力生成”。

业内评价：

“这或许是GPT-5时代的关键技术储备——让AI不仅会‘说’，更要会‘想’。” ——艾伦AI研究所研究员

本文转载自柏企阅文，作者：tailet

标签

推理

算法

已于2025-6-20 10:50:29修改

相关推荐

大模型推理优化实践：KV cache复用与投机采样

wx5bbef785639a1 • 8328浏览 • 0回复
Transformer在复杂推理任务中的新进展：多步逻辑推理中的匹配策略

xuxiangda • 6727浏览 • 0回复
ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力，开源框架SymbCoT来了

轻薄滴假象 • 4709浏览 • 0回复
大模型的条件推理和模态推理

xuxiangda • 4191浏览 • 0回复
语言模型的神秘面纱：小学数学与隐含推理过程

sbf_2000 • 2997浏览 • 0回复
论文解读：《大语言模型推理算法：从解码到元生成》

智能交互引擎 • 3235浏览 • 0回复
OpenAI发布突破性AI模型o1系列，推理能力大幅跃升重塑行业格局

芝士AI吃鱼 • 3464浏览 • 0回复
从openAI最新模型GPT-o1再谈思维链(Cot)技术，大模型该怎么提升其逻辑推理能力？

AI探索时代 • 8712浏览 • 0回复
突破大语言模型的逻辑瓶颈：Logic-of-Thought方法让LLM更懂"推理" | 用外部数据增强大语言模型：RAG全面解

sbf_2000 • 5387浏览 • 0回复
AI数学天才还是数字骗子？GSM-Symbolic揭秘大语言模型的数学推理能力

sbf_2000 • 3091浏览 • 0回复
谷歌与学术界联手，研究突破多智能体合作瓶颈的新算法

xuxiangda • 3800浏览 • 0回复
微软 Phi-4 震撼发布：14B 参数模型性能超越一众大模型，数学推理性能提升显著

Syrupup • 3903浏览 • 0回复
从GraphRAG到PIKE-RAG，微软发布复杂企业场景下的私域知识提取与推理新突破

AI博物院 • 5534浏览 • 0回复
首个混合推理模型Claude 3.7重磅发布，AI 边界在哪里？

算家计算 • 2656浏览 • 0回复
LLM合集：微软发布基于过程的自奖励方法显著提升数学推理性能

AIPaperDaily • 2423浏览 • 0回复
挑战LLM逻辑推理极限！新基准TEXTGAMES能否揭开大模型的短板？

sbf_2000 • 2654浏览 • 0回复
ReSearch: 突破性强化学习框架实现大模型推理搜索能力无缝整合

顿数AI • 9420浏览 • 0回复
数学推理的 AI 新突破：NVIDIA 的 OpenMath-Nemotron 系列震撼登场！

Halo咯咯 • 2772浏览 • 0回复
知识图谱与LLM接口优化：突破复杂推理的性能瓶颈

顿数AI • 3784浏览 • 0回复

柏企阅文

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

微软重磅发布三大AI推理算法：突破大模型数学与逻辑推理瓶颈

一、rStar-Math：用蒙特卡洛树搜索实现“深度思考”

二、LIPS：数学证明的“符号计算+神经直觉”双引擎

三、CPL：关键计划学习——让AI学会“抓重点”

四、学术启示：AI推理的未来方向

目录