谷歌TUMIX:通过多Agent工具混合提升大模型推理能力

发布于 2025-10-10 06:12
浏览
0收藏

谷歌的论文(TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture)提出了工具使用混合(TUMIX),利用多样化的工具使用策略来改进推理能力。论文展示了如何通过并行运行一系列多样化的agent(纯文本、代码、搜索等)并让它们在几轮中共享笔记,从而从大语言模型中获得更好的推理能力。它不是暴力地增加更多样本,而是混合策略,在有信心时停止,最终既更准确又更便宜。


谷歌TUMIX:通过多Agent工具混合提升大模型推理能力-AI.x社区图片

混合不同的agent,而不仅仅是更多同一种agent:他们运行了15种不同的agent风格(思维链、代码执行、网络搜索、引导变体等)。每个agent都能看到问题和其他agent过去的答案,然后再次尝试。这种来回交互使群体比任何单个agent都更聪明。


谷歌TUMIX:通过多Agent工具混合提升大模型推理能力-AI.x社区图片

提前停止,节省成本:更多轮次并不总是有帮助。过度优化可能会扼杀多样性。他们使用LLM判断器来决定何时停止。这既保持了高准确率,又将成本削减了近一半。


谷歌TUMIX:通过多Agent工具混合提升大模型推理能力-AI.x社区图片

优于现有方法:与其他工具增强的扩展技巧相比,TUMIX在困难的推理基准测试(HLE、GPQA-Diamond、AIME)上始终得分更高。对于Gemini-2.5 Pro,它将HLE推高至34.1%,这是一个显著的提升。


谷歌TUMIX:通过多Agent工具混合提升大模型推理能力-AI.x社区图片

多样性是秘密武器:结合文本、代码和搜索agent优于重复采样最佳单一agent。更多样化的工具使用=更多机会找到正确的推理路径。

自动agent设计:他们甚至让LLM生成新的agent类型并将其混合进去,这进一步提升了结果。最佳组合点约为12-15种不同的agent风格。

本文转载自​​​AI帝国​​​,作者:无影寺

收藏
回复
举报
回复
相关推荐