英伟达放话:小模型才是Agent的未来!

发布于 2025-9-1 00:10
浏览
0收藏

这几天,英伟达的一篇论文非常火,标题很直接,小模型才是Agentic AI的未来~

整个内容,主要是论证了为什么要考虑SLM?以及如何从LLM迁移成SLM的六步教程,并论证了开源Agent框架替换成SLM,带来的结果。

今天给家人们分享一下论文内容。

英伟达放话:小模型才是Agent的未来!-AI.x社区

为什么说LLM做大了还不行?

目前行业主流的万事皆用LLM的Agent构建模式,是一种巨大的资源浪费。

AI Agent的大部分子任务,其实是重复、有范围、非对话式的,用一个庞大的、无所不能的LLM去处理,就先杀鸡用牛刀。

大模型的消耗真的很大, Google 周末发布了一个技术报告,平均统计,Gemini 的指令中位数消耗是0.24 瓦电,消耗约 0.26 毫升水(约五滴),并产生 0.03 克二氧化碳。

英伟达放话:小模型才是Agent的未来!-AI.x社区

NVIDIA 给出的小模型的理由有三:

SLM已经足够强大

过去的是小模型=性能差,但在现在的很多优秀的小模型上,已经超过了千代百亿、千亿的模型。

比如说:各种R1-distill、Qwen3、Phi3、MiniCPM 4 等。

在Agent执行具体任务时,我们真正需要的是能力,而不是参数量。

便宜

与70B-175B的LLM相比,一个7B的SLM在延迟、能耗和FLOPs上的成本要低10-30倍!

更快的响应速度、更低的部署门槛。而且,SLM的微调更容易,可以快速迭代和微调。

异构系统才是未来

未来的Agent系统不应该是单一LLM,而应该是一个专家团队(异构系统)。

英伟达放话:小模型才是Agent的未来!-AI.x社区

在这个系统里,SLM是默认的执行者,处理90%的常规任务。只有当遇到极其复杂、需要开放域对话或通用推理的难题时,系统才会向上求助,调用一次昂贵的LLM。

SLM-first,LLM-fallback 。

从LLM到SLM,6步降本增效流程

论文提供了一套将现有Agent从LLM迁移到SLM的六步流程。我也整理出来了:

S1:埋点,收集调用数据

首先,在你的Agent系统中部署日志工具,记录所有非用户直接交互的LLM/Tool调用,包括输入Prompt、输出结果、工具调用参数等。

S2:清洗和过滤数据

收集到足够数据(如10k-100k条)后,进行脱敏处理,移除所有个人身份信息(PII)和其他敏感数据,确保数据安全。

S3:任务聚类,找到可替代场景

使用无监督聚类等技术,分析收集到的数据,找到重复出现的请求模式或内部操作。比如,意图识别、特定格式的数据提取、代码生成等。这些聚类出的任务,就是SLM的候选场景。

S4:选择合适的SLM

给每个任务选择一个或多个候选SLM。选择标准包括:模型能力、许可协议、部署成本等。比如 R1-distill、Qwen3、Phi3、MiniCPM 4  等等都可以作为起点。

S5:微调专家SLM

使用步骤3中聚类好的数据,对选定的SLM进行微调(Lora或者全参都可以)。也可以使用知识蒸馏,让SLM学习模仿LLM在该特定任务上的输出。

S6:迭代和优化

部署SLM后,持续收集新数据,定期重新训练和优化模型,形成一个持续改进的闭环。

到底能省多少?3个开源项目的评估

论文还分析了3个热门的开源Agent项目,评估了它们内部的LLM调用有多少可以被SLM替代:

  • MetaGPT: 约 60% 的查询可以被SLM处理(如常规代码生成、文档编写)。
  • Cradle: 约 70% 的查询可以被SLM处理(如重复性GUI交互、执行预定点击序列)。
  • Open Operator: 约 40% 的查询可以被SLM处理(如简单的命令解析、模板化消息生成)。

说明,即使是复杂的Agent框架,也有很大一部分工作流可以享受到SLM带来的成本优势。

最后

从LLM-centric到SLM-first。

整个论文,实际上是呼吁整个AI Agent行业回归理性:停止对大模型的盲目崇拜,转向对效能的极致追求。

论文地址:https://arxiv.org/pdf/2506.02153v1

本文转载自​探索AGI​,作者:猕猴桃

已于2025-9-1 00:10:00修改
收藏
回复
举报
回复
相关推荐