
忘记大模型,英伟达:小模型才是Agentic AI的未来!
截至 2024 年末,Agentic AI 领域已获得逾 20 亿美元 的初创公司融资,整体估值达 52 亿美元,并有望在 2034 年前逼近 2000 亿美元。先分享一个AI Agent 2025的发展趋势图谱:Agentic RAG、Voice Agents、CUA、Coding Agents、DeepResearch Agents、Protocols
但,过去两年,大模型参数规模在狂奔:从 7B → 70B → 400B+,几乎所有指标都在涨。是不是所有场景都适合用大模型,NVIDIA发布的研究报告显示:
- 在大多数Agentic AI场景中,小型语言模型(SLM)已足够强、更适配、更便宜,理应成为默认选择。
- LLM-to-SLM 迁移不是“可选项”,而是“必然趋势”。
1. Agentic AI 的“大模型迷信”
- 现状:2024 年57bn USD砸进云基建,只为支撑通用 LLM API,而当年市场规模仅5.6bn USD(10 倍溢价)。
- 问题:Agent 的绝大多数调用其实只做重复、狭窄、非对话任务,却硬要调用 175B 参数的“巨无霸”。
2. SLM 才是未来
论点 | 一句话总结 |
V1 足够强 | 7B 模型在代码生成、工具调用、指令遵循等关键指标上 ≈ 70B LLM |
V2 更适配 | 低时延、可本地部署、单任务 fine-tune 一夜完成 |
V3 更便宜 | 推理、微调、运维成本全线下降一个量级 |
3. SLM 已经能打
模型家族 | 参数量 | 对标 LLM 表现 | 效率提升 |
Microsoft Phi-3-small | 7B | 追平 70B 级代码生成 | ↑70× 吞吐 |
NVIDIA Nemotron-H-9B | 9B | 追平 30B Dense LLM | ↓10× FLOPs |
HuggingFace SmolLM2-1.7B | 1.7B | 追平 14B 模型 | 可跑手机端 |
Salesforce xLAM-2-8B | 8B | 工具调用 SOTA,超越 GPT-4o | — |
4. 经济账:SLM 碾压式成本优势
SLMs在延迟、能耗和浮点运算次数上比LLMs便宜10到30倍,LoRA、DoRA微调只需少量GPU小时,并能够在消费级GPU上本地执行,
5. 迁移实操:LLM→SLM 6 步算法
步骤 | 动作 | 工具/技巧 |
S1 | 日志采集 | 加密管道 + 匿名化 |
S2 | 数据清洗 | PII 自动脱敏、敏感实体替换 |
S3 | 任务聚类 | 无监督聚类发现高频子任务 |
S4 | 选型 | 按任务选 1–10 B 模型家族 |
S5 | 微调 | LoRA/QLoRA/蒸馏,<1 GPU-day |
S6 | 持续迭代 | 在线日志回流 → 再训练 |
6. 案例研究:三大开源 Agent 的替换潜力
Agent | 可替换比例 | 高潜场景 | 仍需 LLM 的场景 |
MetaGPT | 60% | 代码补全、模板文档 | 架构设计、复杂 Debug |
Open Operator | 40% | 命令解析、固定格式报告 | 多轮对话、跨 API 推理 |
Cradle | 70% | 重复 GUI 点击序列 | 动态界面适应、异常处理 |
Small Language Models are the Future of Agentic AI
https://arxiv.org/pdf/2506.02153
本文转载自智驻未来
