
少即是多:LIMI 用 78 个样本,重新定义智能体训练效率 原创 精华
一、AI 模型训练的“数据幻觉”
在人工智能领域,有一个近乎铁律的共识:数据越多,模型越聪明。这条逻辑支撑了过去十年的 AI 爆发——从 GPT 到 Claude,再到 DeepSeek,所有巨头都在堆算力、卷数据、拼参数。
但当 DeepSeek 以 1/30 成本训练出高性能模型后,这条铁律开始动摇。 如今,一篇来自 LIMI 团队的新论文再次颠覆认知——他们仅用 78 个高质量训练样本,就让模型在智能体评测中超越了使用 10,000 个样本训练的对手。
是的,你没看错:128 倍更少的数据,性能反而高出 53.7%。
这个研究的名字叫——LIMI:Less Is More for Intelligent Agency(少即是多的智能体训练)。 而它提出的核心原则,或许将成为未来 AI 训练的新范式:
“真正的智能,不源于数据的堆砌,而源于高质量的任务体验。”
二、什么是“智能体”?
在深入 LIMI 之前,我们得先搞清楚“智能体(Agentic AI)”到底意味着什么。
过去的语言模型,只能“说”,不能“做”。 它们接收提示词、生成回答,像是一个被动的智囊。
但智能体不同。它会主动思考、规划、行动。 正如论文中定义的那样:智能体是一种具备自主行动能力的 AI,可以主动发现问题、制定计划、调用工具并与环境交互完成任务。
这意味着,它不再只是回答问题,而是能:
- 主动调试代码;
- 自动完成数据分析任务;
- 自行规划科研流程;
- 在遇到错误时进行自我修复。
举个例子: 传统模型像学生,等老师提问再作答; 智能体像工程师,能独立接项目、写代码、调工具、修 bug,一条龙完成任务。
这正是当下 AI 从“对话型”向“执行型”演化的关键拐点。 而 LIMI,正是要解决——如何高效训练出这样的智能体?
三、为什么“更少的数据”反而更有效?
十几年来,AI 领域一直信奉“Scaling Law”:模型参数越大、数据越多、性能越强。 但近几年开始出现反例——尤其是在复杂推理与多步骤任务上,“更多”反而拖慢了模型学习的关键能力。
比如:
- LIMA (2023)表明,只需 1000 个高质量示例即可实现模型对齐;
- LIMO (2025)证明,用 817 个精心挑选的数学样本,就能让模型在复杂推理中提升 45.8%。
LIMI 则把这一理念推向极致。 它认为:学习“智能行为”不是记忆,而是体验。
想象你学做菜。 看 10,000 个视频,也许能背下每个菜谱; 但跟厨师实操一次,切菜、调味、试错、修正,你才能真正“会做”。
AI 训练也是如此。 LIMI 没有用成千上万条重复样本,而是精挑出 78 条高质量的“完整任务体验”——每条都涵盖了从计划、执行、到修正的全过程。 这让模型学到的,不是孤立知识点,而是完整的解决问题思维链。
四、LIMI 的三大创新:用结构化体验替代大规模样本
LIMI 的突破,来自三个关键方法。
1. Agentic Query Synthesis:让训练任务更像真实协作
传统训练样本通常是单轮问答或简单任务。 LIMI 反其道而行,它模拟了真实开发者与研究者的协作场景。
- 从专业开发者与科学家的真实问题中采样 60 条;
- 再利用 GPT-5 从 GitHub Pull Request 自动生成 18 条“伪真实”任务;
- 每个任务都要求模型进行多轮推理、工具调用与环境交互。
这让训练过程不再是填鸭式学习,而像在真实工作中积累经验。
2. Trajectory Collection Protocol:记录“全过程”的学习轨迹
每个任务不仅包括输入与输出,还完整记录了模型思考、行动、反馈的全过程:
- 推理步骤(思维链)
- 工具调用(如代码编辑、API 请求)
- 环境反馈(如报错、用户修改)
平均每条任务记录 4.2 万个 token,最长超过 15 万。 这让模型真正理解“行动逻辑”——什么时候思考、什么时候动手、遇错如何修复。
3. Focus on High-Impact Domains:聚焦真实高价值场景
LIMI 并非泛化采样,而是聚焦两大高密度领域:
- Vibe Coding:多人协作开发、调试与测试;
- Research Workflows:科研任务,如论文检索、实验设计与数据分析。
这两个领域的共性是:复杂度高、反馈密集、需要多步行动。因此每个样本都极具信息密度,相当于一场高质量的“项目实战”。
五、从 GitHub 到协作智能:数据集是怎么炼成的?
LIMI 数据集的构建过程堪称“工艺级”:
- 任务池创建:从 GitHub 热门项目中抽取真实 Pull Request,再经 GPT-5 转化为结构化问题。
- 严格筛选:由 4 位博士级专家人工审核,确保语义完整与任务真实度。
- 交互生成:使用具备代码执行与网页访问功能的 SII CLI 环境,让 GPT-5 与人工协作完成任务,全程录制交互轨迹。
最终留下的 78 个样本,每一个都像一个完整的“项目案例库”。 每条记录浓缩了数小时的真实问题解决过程,信息密度远超常规训练样本。
六、测试结果:78 个样本干翻 10,000 个样本的模型
在全新评测集 AgencyBench 上,LIMI 展现了惊人的性能:
模型 | 样本量 | 性能分数 |
GLM-4.5 | 10,000 | 45.1% |
DeepSeek-V3.1 | 10,000 | 11.9% |
Kimi-K2 | 10,000 | 24.1% |
LIMI (78 样本) | 78 | 73.5% |
在子指标上同样碾压:
- 首轮任务完成率:71.7% vs 37.8%
- 三轮内成功率:74.6% vs 47.4%
- 执行效率:74.2% vs 50.0%
更令人惊讶的是,LIMI 的泛化能力也极强—— 在代码生成(HumanEval)、工具使用(TAU2-bench)、科研计算(SciCode)等多项任务中,LIMI 都刷新了记录。
这说明,它学到的并非某类任务的套路,而是真正的“通用行动智能”。
七、案例对比:智能体的“实战智商”
研究团队还在论文中展示了几个鲜明的案例:
- 五子棋游戏开发任务:传统模型 GLM-4.5 无法完成棋盘渲染与胜负判断;LIMI 一次性完成所有模块。
- 数据集发现任务:LIMI 在 Hugging Face 上能精确找到最相关的数据集;而 GLM 输出了无关内容。
- 科学函数拟合任务:GLM 需要多次提示才能达到误差 1.14e-6,LIMI 首次尝试就达到 5.95e-7。
- NBA 交易推理任务:LIMI 仅用一次提示即可得出正确推理路径。
这些结果充分证明——LIMI 不仅“知道”,还“会做”。
八、“智能体效率原理”:AI 自主性的本质
LIMI 团队在论文中提出了一个新概念:Agency Efficiency Principle(智能体效率原理)。 它指出:
“机器自主性,不是由数据量堆出来的,而是来自高质量行动演示的战略性设计。”
这句话的意义深远。 它告诉我们: 与其追求更多的样本,不如去设计更有代表性的任务; 与其扩充数据规模,不如提升数据的“行动价值密度”。
换句话说,AI 的未来竞争,不再是谁爬取更多网页,而是谁更懂“教模型做事”。
九、从“堆料”到“调味”:AI 训练的新范式
LIMI 的出现,预示着 AI 训练的一个重要拐点。
过去十年,AI 的进步靠“堆料”:堆数据、堆显卡、堆参数。 但未来十年,将更像“调味”:精准选择素材,合理设计任务,优化模型体验。
这意味着:
- AI 开发的重心将从算力转向认知设计;
- 高质量任务数据将成为新型竞争壁垒;
- 中小企业也能以低成本训练高性能模型。
这是一场从“量”到“质”的范式转移,可能彻底改变 AI 的生态格局。
十、写在最后:AI,不需要“更大”,而需要“更聪明”
LIMI 的研究,用 78 个样本告诉我们一个简单却深刻的道理——AI 不需要更多数据,它需要更好的学习体验。
当模型从“被动输出”变成“主动行动”, 当训练从“堆叠样本”变成“设计体验”, 我们或许才真正踏上了“通用人工智能”的道路。
未来的 AI,不属于拥有最多数据的公司, 而属于那些最懂如何教机器思考和行动的人。
本文转载自Halo咯咯 作者:基咯咯
