6月18日凌晨,微软研究院发布三篇突破性论文,正式公开rStar-Math、LIPS、CPL三大算法,直击大语言模型(LLM)的核心痛点——数学推理与逻辑链能力不足。这些算法不仅适用于百亿参数大模型,也能显著提升小模型的推理性能,被业界称为“推理增强三件套”。

一、rStar-Math:用蒙特卡洛树搜索实现“深度思考”
核心思想:将蒙特卡洛树搜索(MCTS)与代码验证结合,让大模型像人类一样“反复推演再下结论”。

技术亮点:
- 代码增强的思维链(CoT):
- 模型生成推理步骤时,同步输出Python代码并执行验证,仅保留代码执行通过的逻辑链。
- 实验显示,该方法在MATH数据集上的准确率提升23%。
- 偏好对训练(PPM):
- 传统方法直接用Q值作为奖励信号,但噪声大、精度低。
- rStar-Math提出“高Q值正样本+低Q值负样本”对比学习,让模型学会区分推理步骤的优劣。
- 四轮自我进化:
- 策略模型与奖励模型(PPM)通过迭代训练逐步升级,问题难度逐轮递增,最终覆盖复杂数学证明。

论文地址:"arXiv:2501.04519" (https://arxiv.org/pdf/2501.04519)
二、LIPS:数学证明的“符号计算+神经直觉”双引擎

核心思想:将数学证明分解为符号缩放(严谨但有限)和神经重写(灵活但需筛选),二者协同突破传统方法的局限性。

技术突破:
- 符号缩放:
- 基于不等式引理库(如AM-GM不等式)对目标式进行严格变形,但可能产生无效子目标。
- 通过SMT求解器自动验证缩放策略的有效性。
- 神经重写:
- 大模型负责生成等价变形策略(如分母有理化、变量替换),凭借“数学直觉”从无限可能中筛选最优路径。
- 两阶段筛选:
- 符号过滤:利用齐次性、解耦性等数学特性快速剔除无效目标。
- 神经排序:对剩余目标用大模型进行最终优先级排序。
论文地址:"arXiv:2502.13834" (https://arxiv.org/pdf/2502.13834)
三、CPL:关键计划学习——让AI学会“抓重点”
核心思想:传统强化学习在跨任务泛化上表现不佳,CPL通过抽象计划空间搜索和关键步骤优化,实现推理能力的本质提升。
创新点:
- 计划空间搜索:
- 先生成高层次解题计划(如“先求导再积分”),而非直接输出具体公式,增强泛化性。
- Step-APO优化:
- 改进DPO(直接偏好优化),引入优势估计权重,让模型识别对结果影响最大的关键步骤。
- 在代码生成任务中,关键步骤识别准确率提升37%。
论文地址:"arXiv:2409.08642" (https://arxiv.org/pdf/2409.08642)
四、学术启示:AI推理的未来方向
微软此次提出的三大算法,共同指向LLM推理能力的下一代范式:
- 混合架构:符号计算(严谨性)+神经生成(灵活性)的结合不可逆。
- 自我进化:自动化迭代训练将成为模型能力跃迁的核心路径。
- 计划抽象:高层次推理规划将逐步取代“端到端暴力生成”。
业内评价:
“这或许是GPT-5时代的关键技术储备——让AI不仅会‘说’,更要会‘想’。” ——艾伦AI研究所研究员
本文转载自柏企阅文,作者:tailet