英伟达放话：小模型才是Agent的未来！

探索AGI

发布于 2025-9-1 00:10

浏览

0收藏

这几天，英伟达的一篇论文非常火，标题很直接，小模型才是Agentic AI的未来~

整个内容，主要是论证了为什么要考虑SLM？以及如何从LLM迁移成SLM的六步教程，并论证了开源Agent框架替换成SLM，带来的结果。

今天给家人们分享一下论文内容。

英伟达放话：小模型才是Agent的未来！-AI.x社区

为什么说LLM做大了还不行？

目前行业主流的万事皆用LLM的Agent构建模式，是一种巨大的资源浪费。

AI Agent的大部分子任务，其实是重复、有范围、非对话式的，用一个庞大的、无所不能的LLM去处理，就先杀鸡用牛刀。

大模型的消耗真的很大， Google 周末发布了一个技术报告，平均统计，Gemini 的指令中位数消耗是0.24 瓦电，消耗约 0.26 毫升水（约五滴），并产生 0.03 克二氧化碳。

英伟达放话：小模型才是Agent的未来！-AI.x社区

NVIDIA 给出的小模型的理由有三：

SLM已经足够强大

过去的是小模型=性能差，但在现在的很多优秀的小模型上，已经超过了千代百亿、千亿的模型。

比如说：各种R1-distill、Qwen3、Phi3、MiniCPM 4 等。

在Agent执行具体任务时，我们真正需要的是能力，而不是参数量。

便宜

与70B-175B的LLM相比，一个7B的SLM在延迟、能耗和FLOPs上的成本要低10-30倍！

更快的响应速度、更低的部署门槛。而且，SLM的微调更容易，可以快速迭代和微调。

异构系统才是未来

未来的Agent系统不应该是单一LLM，而应该是一个专家团队（异构系统）。

英伟达放话：小模型才是Agent的未来！-AI.x社区

在这个系统里，SLM是默认的执行者，处理90%的常规任务。只有当遇到极其复杂、需要开放域对话或通用推理的难题时，系统才会向上求助，调用一次昂贵的LLM。

SLM-first，LLM-fallback 。

从LLM到SLM，6步降本增效流程

论文提供了一套将现有Agent从LLM迁移到SLM的六步流程。我也整理出来了：

S1：埋点，收集调用数据

首先，在你的Agent系统中部署日志工具，记录所有非用户直接交互的LLM/Tool调用，包括输入Prompt、输出结果、工具调用参数等。

S2：清洗和过滤数据

收集到足够数据（如10k-100k条）后，进行脱敏处理，移除所有个人身份信息（PII）和其他敏感数据，确保数据安全。

S3：任务聚类，找到可替代场景

使用无监督聚类等技术，分析收集到的数据，找到重复出现的请求模式或内部操作。比如，意图识别、特定格式的数据提取、代码生成等。这些聚类出的任务，就是SLM的候选场景。

S4：选择合适的SLM

给每个任务选择一个或多个候选SLM。选择标准包括：模型能力、许可协议、部署成本等。比如 R1-distill、Qwen3、Phi3、MiniCPM 4 等等都可以作为起点。

S5：微调专家SLM

使用步骤3中聚类好的数据，对选定的SLM进行微调（Lora或者全参都可以）。也可以使用知识蒸馏，让SLM学习模仿LLM在该特定任务上的输出。

S6：迭代和优化

部署SLM后，持续收集新数据，定期重新训练和优化模型，形成一个持续改进的闭环。

到底能省多少？3个开源项目的评估

论文还分析了3个热门的开源Agent项目，评估了它们内部的LLM调用有多少可以被SLM替代：

MetaGPT: 约 60% 的查询可以被SLM处理（如常规代码生成、文档编写）。
Cradle: 约 70% 的查询可以被SLM处理（如重复性GUI交互、执行预定点击序列）。
Open Operator: 约 40% 的查询可以被SLM处理（如简单的命令解析、模板化消息生成）。

说明，即使是复杂的Agent框架，也有很大一部分工作流可以享受到SLM带来的成本优势。

最后

从LLM-centric到SLM-first。

整个论文，实际上是呼吁整个AI Agent行业回归理性：停止对大模型的盲目崇拜，转向对效能的极致追求。

论文地址：https://arxiv.org/pdf/2506.02153v1

本文转载自探索AGI，作者：猕猴桃

标签

英伟达

小模型

Agent

已于2025-9-1 00:10:00修改

相关推荐

CAN和Diffusion Transformer才是最佳拍档(MIT&清华&英伟达)

angel • 5205浏览 • 0回复
英伟达股价暴跌！或与 Llama 3 发布有关？

开发者阿橙 • 4629浏览 • 0回复
英伟达开源大模型对齐框架—NeMo-Aligner

Aceryt • 4136浏览 • 0回复
大模型Agent的过去、现在、未来

探索AGI • 3654浏览 • 0回复
一夜小模型王座易主！英伟达发布超强小模型，性能、速率、缓存全面超越Llama3.2！

51CTO技术栈 • 3090浏览 • 0回复
英伟达NVLM多模态大模型细节和数据集

大模型自然语言处理 • 3900浏览 • 0回复
“大模型+知识图谱”双轮驱动的见解、技术和评估 - 英伟达的GraphRAG

知识图谱科技 • 4491浏览 • 0回复
英伟达开源世界大模型，完美模拟物理世界！

Aceryt • 4633浏览 • 0回复
微软开源小模型Phi系列：技术演进、能力突破与未来展望

上堵吟1 • 4543浏览 • 0回复
多Agent思想显著提升小模型工具调用能力

arnoldzhw • 4729浏览 • 0回复
LLM之后，Agent的未来是RL！

探索AGI • 5521浏览 • 0回复
英伟达ECLAIR-端到端的文档布局提取，并集成阅读顺序方法

大模型自然语言处理 • 2981浏览 • 0回复
英伟达发布天气模型CorrDiff，预测效率大涨

Aceryt • 3203浏览 • 0回复
英伟达全力发展AI Agent！开源专属大模型，最强AI工厂

Aceryt • 2853浏览 • 0回复
英伟达开源通用机器人大模型—GR00T N1

Aceryt • 2900浏览 • 0回复
英伟达 GTC 2025：从芯片到机器人，AI 未来已来，市场为何不买账？

Halo咯咯 • 3071浏览 • 0回复
从 GPT-4O 生图看自回归模型与扩散模型的博弈：谁才是图像生成的未来？

智驻未来 • 3847浏览 • 0回复
英伟达押注Agent新基建！AI专属搜索引擎问世

探索AGI • 2988浏览 • 0回复
忘记大模型，英伟达：小模型才是Agentic AI的未来！

智驻未来 • 1589浏览 • 0回复

探索AGI

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

英伟达放话：小模型才是Agent的未来！

为什么说LLM做大了还不行？

SLM已经足够强大

便宜

异构系统才是未来

从LLM到SLM，6步降本增效流程

S1：埋点，收集调用数据

S2：清洗和过滤数据

S3：任务聚类，找到可替代场景

S4：选择合适的SLM

S5：微调专家SLM

S6：迭代和优化

到底能省多少？3个开源项目的评估

最后

目录