
加州大学伯克利分校团队:训练大模型AgentS,要从“替代”到“赋能” 精华
从“替代”到“赋能”的转变
过去几年,大语言模型(LLM)几乎成了科技圈的“超级明星”。它们能写代码、能写文章、能帮忙做决策,甚至还能在会议上给你提炼要点。无论是程序员、作家还是企业高管,似乎都能从中找到一个“万能助手”。
但问题也随之而来。现有的训练方法大多依赖两条路径——模仿学习和强化学习。模仿学习让模型学会“照葫芦画瓢”,模仿专家的操作;强化学习则通过奖励机制逼着模型不断优化。听起来很合理,但结果却是——模型越来越倾向于替代人类完成任务,而不是帮助人类更好地完成任务。换句话说,AI 越聪明,人类的“存在感”反而越低。
加州大学伯克利分校和普林斯顿大学的研究团队正是要打破这种局面,他们提出:我们需要的不是一个“自动化替身”,而是一个“增强型伙伴”。AI 不该把人类挤出决策链条,而是要在关键时刻把选择权交还给人类,让人类保持主动性和创造力。于是,他们提出了一个新范式——赋能(Empower)。
说到这里,不得不介绍一下这支研究团队的背景,研究团队阵容堪称“豪华阵容”。
来自加州大学伯克利分校(UC Berkeley )的 Evan Ellis、Vivek Myers、Sergey Levine 和 Anca Dragan,个个都是强化学习、人机交互和机器人学的高手。
来自Princeton University 的 Jens Tuyls 和 Benjamin Eysenbach,则在自然语言处理和概率推断方面有深厚积累。
其中,Sergey Levine 是深度强化学习领域的重量级人物,Anca Dragan 则是人机交互和 AI 对齐的领军学者。年轻的博士生和资深教授同台,既有理论创新的锐气,也有应用落地的经验。可以说,这是一支既懂“算法内功”,又懂“人机关系”的黄金组合。
1.研究问题与挑战
要理解这项研究的价值,得先看清楚人机协作的核心矛盾:效率 vs. 控制权。
如果让 AI 全权接管,效率的确会飙升,但人类就成了“甩手掌柜”,逐渐失去对过程的理解和掌控。反过来,如果把所有决定都交给人类,AI 又沦为“打字机助手”,无法发挥它的计算与推理优势。如何在两者之间找到平衡,是人机协作的关键难题。
现有方法在这条平衡木上走得并不稳。
模仿专家:看似聪明,但其实缺乏灵活性。模型只能学会“专家当时怎么做”,一旦遇到新情况就容易“掉链子”。
强化学习:理论上能让模型更强大,但代价是需要大量昂贵的人类反馈。想象一下,每次训练都要请专家来打分,就像请律师逐条审合同,成本高得吓人。
过度自动化:这是最隐蔽的陷阱。模型越强大,人类越容易“放权”,久而久之,主动性和创造力被削弱,最后人类只剩下“点确认”的权力。
这正是研究团队要解决的挑战,如何让 AI 在保证效率的同时,不剥夺人类的控制权?如何让人机协作真正成为“1+1>2”的关系,而不是“AI 独角戏”?
2.方法论:Empower(赋能训练)
如果说研究报告的前半部分是在“挑毛病”,那么方法论部分就是在“开药方”。
研究团队提出的核心理念叫做 Empower(赋能训练),它的目标不是让模型替人类做所有事,而是要最大化“人类赋能”——换句话说,让人类在环境中实现目标的能力被放大,而不是被削弱。
图1:通过Empower训练辅助代理。LLM生成后缀的累积似然性,如每个标记下方所示。当累积可能性大于阈值时,授权完成被选为最长后缀。这训练助手完成文本,直到达到决定点。然后,人类将有更多的选择去哪里执行程序,这样他们的下一个行动就有了权力。
当你和一个超级聪明的助手一起写代码。助手能帮你补全那些千篇一律的函数模板,但当涉及到关键的业务逻辑时,它会停下来,把选择权交还给你。这就是赋能的精髓,AI 不再是“全权代理”,而是“聪明的合作者”。
那么,Empower 是怎么做到的呢?研究团队走了一条很有意思的技术路径。
首先,他们引入了一个基于 互信息(mutual information) 的赋能指标。互信息本质上是衡量“一个变量对另一个变量的不确定性减少程度”。在这里,它被用来度量人类的行为对未来结果的影响力。
换句话说,如果某个决策点对最终结果影响巨大,那就应该交给人类来做;如果某个环节几乎是机械性的,那就交给模型自动完成。
其次,这个方法的一个亮点是:完全不需要额外的人类反馈。传统的强化学习往往要请专家来打分,成本高得像请律师逐条审合同。而 Empower 只需要离线文本数据,就能通过统计和建模来推断哪些部分该由模型接管,哪些部分该留给人类。这让方法既经济又可扩展。
在具体策略上,Empower 的分工逻辑非常直观。
高可预测性部分,比如常见的代码片段、标准化的写作模板,模型可以自动完成,省去人类的重复劳动。
高不确定性部分,比如涉及创造性、判断性或风险分配的环节,则留给人类来决策,确保关键选择不被“黑箱”替代。
与传统方法相比,这是一种范式转变。过去的训练方式往往追求“模型独立完成任务”,仿佛人类只需要坐在一旁看结果。而 Empower 的逻辑是“模型辅助 +人类主导”,强调人类始终在决策链条的中心。这样一来,AI 不再是“替代者”,而是“赋能者”。
图2:以Gemma3-27B-it作为人体模型的辅助结果。我们评估了554个LiveCodeBench问题。我们发现Empower在以下方面优于所有基线pass@1以及DPR。误差条显示标准误差。
如果用一句话来总结——Empower 就像是一个懂分寸的助手,知道什么时候该自己动手,什么时候该请示老板。它既能提高效率,又能保留人类的创造力和控制权。
3.实验设计与结果
理论再漂亮,如果没有实验验证,也只能停留在“纸上谈兵”。研究团队显然深谙此道,于是他们设计了两类实验,一类是冷冰冰的模拟实验,用数据和指标说话;另一类是热乎乎的用户实验,让真实的人来检验 AI 助手的表现。
先看模拟实验。研究团队选择了两个颇具挑战性的编程数据集:Codeforces 和 LiveCodeBench。前者是全球知名的算法竞赛平台,题目难度跨度大,能很好地考验模型的逻辑推理与代码生成能力;后者则是一个专门用于评测代码生成模型的基准测试集,强调实用性和鲁棒性。
在模型选择上,他们没有走“闭源大模型”的捷径,而是用开源的 Llama-3.1-8B和 Qwen3-8B/14B 来进行实验。这一点很有意思:一方面说明方法本身不依赖超大规模的算力堆砌,另一方面也让研究更具可复现性。
图3:Llama-3.1-8B-Instruct助手的人体研究结果。最受欢迎和最相关的准确95%置信区间显示出来,因为它们代表伯努利数据。接受率和删除字符显示标准错误栏。在所有情况下,参与者都更喜欢使用我们的Empower助手。
评测指标方面,团队采用了两个关键指标:
- Pass@1:即模型在第一次尝试中生成正确答案的概率。
- DPR(Discounted Probability of Resolution):一种折扣成功率指标,更能反映模型在多轮交互中的表现。
结果如何呢?一句话总结,Empower 方法的提升相当惊人。
在 Pass@1 上,性能提升接近 192%,几乎是翻倍再加一半。这意味着 Empower 不仅让模型更聪明,还让它更懂得“什么时候该自己做,什么时候该交给人类”。
不过光有数据还不够,毕竟AI 助手最终是要服务于人类的。于是,研究团队又设计了一场 用户实验。他们邀请了 18 位参与者,在一个双盲测试环境下完成 Python 编程任务。所谓“双盲”,就是参与者不知道自己用的是哪种助手,避免心理暗示影响结果。
实验结果同样令人振奋:
- 78% 的用户更偏好 Empower 助手。这说明大多数人觉得它更顺手、更贴心。
- 接受率提升了 31%。换句话说,用户更愿意直接采纳 Empower 的建议,而不是一边吐槽一边删掉。
- 删除字符数减少了 26%。这是一项很直观的指标,意味着用户花在“修修补补”上的时间更少,AI 的输出质量更高。
综合来看,Empower 在冷冰冰的指标和热乎乎的用户体验上都交出了漂亮的答卷。它不仅让模型更高效,还让人类感觉更有掌控感。这种“双赢”的效果,正是人机协作的理想状态。
4.研究贡献与意义
研究的最大亮点,在于它不仅提出了一个新算法,更是提出了一种全新的人机协作哲学。
在理论层面,研究团队把“赋能”提升为人机协作的新对齐目标。过去我们谈 AI 对齐,总是强调“让机器学会人类的偏好”,但这往往导致 AI 越来越像一个“替身演员”,抢走了人类的舞台。
而赋能的提出,则把焦点转向了“如何让人类在与 AI 协作时更有力量”。这是一种范式转变:AI 不再是“模仿人类”,而是“放大人类”。
在方法层面,Empower 算法的贡献同样不容小觑。它是一种可扩展、自监督、无需人类反馈的训练方法。换句话说,它不需要昂贵的专家打分,也不依赖海量的人工标注,而是通过离线数据和信息论指标,就能自动学会“什么时候该帮忙,什么时候该让路”。这让它在实际应用中更具可操作性,也更容易推广。
在实践价值上,Empower 的意义更是直观。它能显著提升人机协作效率,让 AI 在重复性任务上发挥长处,同时增强人类的控制感与创造力。更重要的是,这种方法并不局限于代码生成。
在机器人领域,Empower 可以让机器人自动完成搬运、清洁等机械性动作,但在涉及安全或伦理的决策时,仍然由人类来拍板。在网页代理场景中,AI 可以帮你自动填写表格,但在涉及隐私或支付的环节,它会停下来请你确认。在教育领域,AI可以自动批改标准化题目,但在开放性写作或批判性思维训练中,它会把舞台交还给学生。
一句话总结,Empower 的贡献,不仅在于它让 AI 更聪明,更在于它让人类更有力量。
5.批判性思考与局限性
当然,再漂亮的研究也不是“银弹”。Empower 也有它的适用范围和潜在风险。
它目前主要验证于代码生成场景,虽然结果令人振奋,但能否在法律、医疗、金融等更复杂、更高风险的领域同样奏效,还需要进一步验证。毕竟,写代码的逻辑性很强,而现实世界的语境往往更加模糊和多变。
Empower 的核心机制是基于“可预测性”来划分人机分工,但过度依赖这一指标,可能会忽视复杂语境下的细微差别。比如,在法律合同中,有些条款看似模板化,但其中的措辞细节却可能决定巨大的风险。如果模型仅凭“可预测性”来判断,可能会错过这些关键点。
再者,人机分工的边界并不是一成不变的。今天 AI 可能只适合处理模板化任务,但随着技术进步,它的能力边界会不断扩展。如何动态调整人机分工,避免 AI 过度接管或人类过度依赖,是一个长期的挑战。
未来的改进方向也很清晰。首先是跨领域验证,尤其是在法律、医疗、金融这些高风险场景中,Empower 是否能真正增强人类而不是制造新的隐患,需要更多实证研究。其次,可以考虑将Empower 与人类偏好反馈结合,让模型不仅懂得“哪里该停”,还懂得“人类希望它怎么停”。最后,更细粒度的人机交互设计也很重要。比如,不仅仅是“做”或“不做”的二元选择,而是提供多层次的辅助模式,让人类可以根据需求灵活切换。(END)
参考资料:https://arxiv.org/pdf/2510.13709
本文转载自波动智能,作者:FlerkenS
