
语言如何驱动Agent生成“新世界系统” 精华
核心观点总结:语言驱动Agent与非共识之路
姚顺雨的经历和研究都体现了“非共识”的路径,他一直致力于Agent(智能体)研究,并坚信语言是实现泛化和开放世界决策的本质工具。
1. Agent的本质:语言是为泛化而生的工具
•非共识起点:2018年选择让语言模型玩游戏,而不是当时主流的BERT。
•开放世界的本质:真实世界的行为空间是开放的(open-ended),传统NLP的有限选项无法应对。
•语言的特殊性:语言是一个通用性(general-purpose)工具,学会它能实现跨领域的学习、思考和泛化,这是火、轮子等工具无法比拟的。
•范式转移:AI已经历了符号主义AI(规则驱动)和深度强化学习(试错学习+环境特定)的瓶颈,现在进入语言驱动Agent(推理+语言先验+工具)的时代,实现了跨领域泛化。
AI智能体演进:三次范式转移
Agent能力的分级与三大瓶颈
OpenAI将AI能力分为五级(Chatbot → Reasoner → Agent → Innovator → Organizer)。从Agent(Level 3)向更高层级发展,需要突破三大关键能力:长期记忆、内生奖励、多智能体协作。
OpenAI智能体能力层级框架与核心要素
1. 长期记忆(Long-term Memory)
•核心瓶颈:模型最大的瓶颈不是推理能力,而是缺少完整的Context。
•人与AI的区别:人类社会的许多Context(如行为习惯、未成文的共识)只存在于人的大脑,由一个分布式系统维护,而AI缺少这种环境中的“沉浸式”Context。
•环境即记忆:引用冯·诺依曼的观点——“环境永远是记忆层级中最外层的部分。”(The Environment is always the most outer part of the Memory Hierarchy.)
2. 内生奖励(Intrinsic Reward)
•Innovator的核心:创新者在创造被证明的价值前,没有任何外部奖励或反馈,需要自我激励(类似婴儿的好奇心)。
•机制设计难题:如何为AI玩语言游戏设计有效的内在激励机制,目前尚无定论。
3. 多智能体(Multi-Agent)
•组织与协作:Level 5(Organizer)的能力是解决Agent之间如何协作,以及如何让**多智能体协作规模化(scale)**的问题。
•重要性:人类社会最崇拜两种人:创造新东西的人和创造新组织的人(如马斯克、乔布斯),这表明组织协作能力和个体创造力一样重要。
方法论与任务设计的艺术
1. ReAct的价值:简单与通用性
•核心思想:将推理(Reasoning)和行动(Action)结合起来:Thought → Action → Observation → Thought → ...
•价值体现:强调做简单通用的方法和有实际价值的任务。在模型能力被大公司垄断的情况下,研究“如何使用模型”更有价值。
语言:实现泛化的通用工具系统架构
2. 任务评估框架:Pass@k vs Pass^k
姚顺雨提出了两个重要的评估框架,强调根据应用场景选择不同的容错标准:
任务评估框架:Pass@k vs Pass^k
•奖励原则:Reward应基于结果,不基于过程;应是白盒的、可计算的,以避免因优化人的偏好或模型的偏好而产生投机取巧(hacking)。
3. Code:机器的“手”
•Code的地位:Code就像人的手,是数字Agent最重要的affordance(环境给予行动者的可能性),因为它是天然为机器使用的表达形式。
•创新:通过InterCode等工作,将编程任务构造成一个多轮Agent task,把执行结果反馈给模型,使其更具Agent特性。
创业与未来的图景
创业与未来的图景
1. 创业公司的机会:设计不同的Interface
•Super App的机会:创业公司最大的机会是设计不同于ChatGPT的交互方式(interface)。
•超越ChatGPT的交互:ChatGPT是拟人化的交互。Cursor等通过创造非拟人化的、像Copilot(副驾驶)一样的新交互,创造了巨大价值。
•核心挑战:要找到那个和ChatGPT形态很不一样的Super App,因为一旦公司有了Super App,所有事都会围绕它重构。
超级应用生态系统与创业机会地图
2. 模型公司与应用公司的博弈:相互抄袭
•非单向垄断:世界并非会被模型公司单极垄断,而是一个相互抄袭的关系。
•力量平衡:智能的边界将由不同Super App共同定义,而不是由一家机构定义。
3. OpenAI的赌注:GPT的非共识选择
•Different Bet:OpenAI为了超越DeepMind,必须有一个不同的赌注。GPT在当时是一个反共识的决定,Ilya的最大贡献是他是那个号召大家All in这个方向的人。
•下一个赌注:长期记忆、内生奖励、多智能体协作。
4. 终极思考
•价值为王:对创业者而言,最重要的是“想清楚你的价值是什么”——为用户带来了什么样的增量价值。
•人与Agent的关系:Agent的出现不是替代,而是会带来三种主要场景:情感陪伴(拟人化)、专业助手(任务导向)、生态平台(非拟人化基础设施)。
本文转载自萤火AI百宝箱,作者: 萤火AI百宝箱
