
英伟达放话:小模型才是Agent的未来!
这几天,英伟达的一篇论文非常火,标题很直接,小模型才是Agentic AI的未来~
整个内容,主要是论证了为什么要考虑SLM?以及如何从LLM迁移成SLM的六步教程,并论证了开源Agent框架替换成SLM,带来的结果。
今天给家人们分享一下论文内容。
为什么说LLM做大了还不行?
目前行业主流的万事皆用LLM的Agent构建模式,是一种巨大的资源浪费。
AI Agent的大部分子任务,其实是重复、有范围、非对话式的,用一个庞大的、无所不能的LLM去处理,就先杀鸡用牛刀。
大模型的消耗真的很大, Google 周末发布了一个技术报告,平均统计,Gemini 的指令中位数消耗是0.24 瓦电,消耗约 0.26 毫升水(约五滴),并产生 0.03 克二氧化碳。
NVIDIA 给出的小模型的理由有三:
SLM已经足够强大
过去的是小模型=性能差,但在现在的很多优秀的小模型上,已经超过了千代百亿、千亿的模型。
比如说:各种R1-distill、Qwen3、Phi3、MiniCPM 4 等。
在Agent执行具体任务时,我们真正需要的是能力,而不是参数量。
便宜
与70B-175B的LLM相比,一个7B的SLM在延迟、能耗和FLOPs上的成本要低10-30倍!
更快的响应速度、更低的部署门槛。而且,SLM的微调更容易,可以快速迭代和微调。
异构系统才是未来
未来的Agent系统不应该是单一LLM,而应该是一个专家团队(异构系统)。
在这个系统里,SLM是默认的执行者,处理90%的常规任务。只有当遇到极其复杂、需要开放域对话或通用推理的难题时,系统才会向上求助,调用一次昂贵的LLM。
SLM-first,LLM-fallback 。
从LLM到SLM,6步降本增效流程
论文提供了一套将现有Agent从LLM迁移到SLM的六步流程。我也整理出来了:
S1:埋点,收集调用数据
首先,在你的Agent系统中部署日志工具,记录所有非用户直接交互的LLM/Tool调用,包括输入Prompt、输出结果、工具调用参数等。
S2:清洗和过滤数据
收集到足够数据(如10k-100k条)后,进行脱敏处理,移除所有个人身份信息(PII)和其他敏感数据,确保数据安全。
S3:任务聚类,找到可替代场景
使用无监督聚类等技术,分析收集到的数据,找到重复出现的请求模式或内部操作。比如,意图识别、特定格式的数据提取、代码生成等。这些聚类出的任务,就是SLM的候选场景。
S4:选择合适的SLM
给每个任务选择一个或多个候选SLM。选择标准包括:模型能力、许可协议、部署成本等。比如 R1-distill、Qwen3、Phi3、MiniCPM 4 等等都可以作为起点。
S5:微调专家SLM
使用步骤3中聚类好的数据,对选定的SLM进行微调(Lora或者全参都可以)。也可以使用知识蒸馏,让SLM学习模仿LLM在该特定任务上的输出。
S6:迭代和优化
部署SLM后,持续收集新数据,定期重新训练和优化模型,形成一个持续改进的闭环。
到底能省多少?3个开源项目的评估
论文还分析了3个热门的开源Agent项目,评估了它们内部的LLM调用有多少可以被SLM替代:
- MetaGPT: 约 60% 的查询可以被SLM处理(如常规代码生成、文档编写)。
- Cradle: 约 70% 的查询可以被SLM处理(如重复性GUI交互、执行预定点击序列)。
- Open Operator: 约 40% 的查询可以被SLM处理(如简单的命令解析、模板化消息生成)。
说明,即使是复杂的Agent框架,也有很大一部分工作流可以享受到SLM带来的成本优势。
最后
从LLM-centric到SLM-first。
整个论文,实际上是呼吁整个AI Agent行业回归理性:停止对大模型的盲目崇拜,转向对效能的极致追求。
论文地址:https://arxiv.org/pdf/2506.02153v1
本文转载自探索AGI,作者:猕猴桃
