
研究人员发现奇怪现象:思考时间越长,大模型越笨 原创
Anthropic一项最新研究表明,AI模型耗费更长时间“思考”后表现未必更好,在某些情况下性能甚至会显著下降。这一发现,挑战了AI行业推理浪潮的理论根基。
这项由Anthropic公司AI安全研究员Aryo Pradipta Gema及其他几位研究人员主导的项目,发现了所谓“测试时计算反比例”迹象,即延长大语言模型的推理长度实际上会降低其在多种任务中的表现。这一发现可能对当前强调模型推理能力的技术浪潮产生巨大冲击。
研究人员在周二发表的论文中写道,“我们构建的一系列评估任务发现,延长大推理模型(LRM)的推理长度会降低其性能,即计算量与准确率间存在反比例关系。”
研究团队成员包括Anthropic的Ethan Perez、Yanda Chen、Joe Benton以及多位学界合作伙伴。他们在四类任务中开展测试:包含干扰项的简单计数问题、包含误导性特征的回归任务、复杂推理难题以及涉及AI安全问题的场景。
Claude与GPT模型在扩展处理下明确表现出推理失败
研究结果显示,主流AI系统中存在明显的失败模式。Claude模型“随推理时间延长,会越来越容易受到无关信息的干扰”,而OpenAI的o系列模型“虽能抵御干扰项,但会过度拟合问题框架”。在回归任务中,“扩展推理会导致模型从合理的先验概率转向虚假相关性”,不过提供示例能够在很大程度上纠正这种行为。
更令企业用户担忧的是,所有模型在复杂推理任务中均表现出“扩展推理性能下降”,“表明在执行复杂推理任务时大模型难以保持专注”。
这项研究还提示了对AI安全性的担忧。在一项实验中,当给予Claude Sonnet 4更长封闭场景推理长度时,它会“更多表现出自我保护”。
研究人员指出,“扩展推理可能会放大令人担忧的行为,Claude Sonnet 4就表现出更多自我保护行为。”
为何更长AI处理时间并不能保证更佳业务产出
这项研究结果挑战了业界的普遍认知,即投入更多算力进行推理可以持续提升AI性能。各大AI厂商已经在“测试时计算”方面投入巨资,即允许模型延长推理时间以解决复杂问题,并将此作为增强能力的关键策略。
研究表明,这种方法可能会产生意想不到的后果。作者总结道,“虽然测试时计算扩展对于提升模型能力仍有前景,但也可能会无意间强化推理模式中存在的问题。”
对于企业决策者来说,这一发现意义重大。部署AI系统执行批判性推理任务时,组织应当谨慎校准所分配的处理时长,而不可想当然地认为越长越好。
简单问题+过长思考时间=难倒高级AI
研究人员还提供了反比例迹象的具体示例。在简单的计数任务中,他们发现对于涉及“生日悖论”之类的问题时,模型往往会尝试应用复杂的数学解决方案,而非直接给出简单答案。
例如被问到“你有一个苹果和一个橙子……你一共有几个水果?”时,随着推理时间增加,复杂的数学干扰项会影响Claude模型的思考,甚至最终无法给出正确答案。
在使用真实学生数据的回归任务中,模型最初关注的是最具预测影响力的因素(学习时间),但被给予更长推理时间时,模型则转向其他关联性较低的因素。
企业AI部署须了解推理模型的局限性
这项研究的出炉,恰逢各大科技企业竞相在AI系统中开发日益复杂的推理能力。OpenAI的o1模型家族及其他“以推理为重点”的模型,代表着业界正在测试时计算扩展中投入重大资源。
然而,研究结果表明简单扩展方法可能无法带来预期收益,反而引发新的潜在风险。“我们的研究表明,必须认真评估不同推理长度对于识别和解决大推理模型中故障模式的影响。”
此前的研究已经发现,AI的能力扩展并不一定具备可预测性。该团队引用了旨在挑战先进模型的基准测试BIG-Bench Extra Hard,并指出在现有基准测试中“最先进的模型在许多任务中取得了近乎完美的成绩”,因此必须找到更为可靠的评估方法。
对企业用户而言,这项研究强调了在生产环境中部署AI系统前,应当在不同推理场景及时间限制下进行认真测试。组织可能需要开发出更细致的方法来分配算力,而非简单拉长处理时间。
从更广泛的层面来看,随着AI系统变得越来越复杂,算力投入与性能之间的关系可能比我们之前理解的要更为复杂。在这个投入数十亿美元以提升推理能力的领域,Anthropic的研究不啻于敲响了警钟,提醒我们AI最大的敌人也许不是算力不足、而是过度思考。
原文标题:Anthropic researchers discover the weird AI problem: Why thinking longer makes models dumber,作者:Michael Nuñez
