RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图

发布于 2025-9-2 06:38
浏览
0收藏

我最近一直在思考一个问题:我们现在看到的那些“智能”AI,比如能写诗、能画画的大语言模型,它们真的很“智能”吗?它们能不能像我们人类一样,真正地在未知世界中“学习”和“成长”,而不是仅仅“记住”和“模仿”?

这个问题触及到了人工智能领域的“圣杯”——实现真正的强人工智能。我们渴望的,不是一个知道一切的百科全书,而是一个能自主探索、自主学习、自我提升的“心智”。最近,当我深入研读强化学习之父Rich Sutton教授在RLC 2025大会上关于OaK架构的分享时,我感到无比震撼。这不仅仅是一个新的技术方案,它更像是一张指引我们走向真正“超级智能”的地图,而且这张地图的绘制,是基于“经验”的。

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

AI的终极梦想:为什么我们总觉得AI还差点“意思”?

作为在AI研究者,我们试图理解人类如何运作,也渴望创造出能让我们自身更强大的智能,这是一个足以改变一切的里程碑式成就。然而,在兴奋之余,我常常陷入沉思:我们现有的AI,真的走在通往“通用智能”的正确道路上吗?

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

你看,现在那些风头正劲的大语言模型,它们固然惊艳,能够生成流畅的文本、进行复杂的对话。但Sutton教授一针见血地指出,它们的工作方式更像是设计时的产物。也就是说,它们在出厂前,就已经把所有我们能想到的、能灌输的知识都“吃”下去了,如同一个博览群书的学霸。可一旦进入真实世界,面对预料之外的局面,它们就显得有些力不从心了,因为它们不能在“运行时”主动学习和适应。这就像一个从小读遍武林秘籍的武术高手,如果从没真正实战过,一旦遭遇变招,便会手足无措。

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

Sutton教授非常明确地认为,通往真正的强人工智能之路,必须而且只能经过“强化学习”。他甚至抛出了一个让我深思的观点:我们现在最大的瓶颈,竟然是学习算法还不够完善。我们可能觉得深度学习已经很强大了,但他认为,我们的算法仍旧非常粗糙,需要极大的提升。这无疑是对我们现有技术栈的一次深刻反思。

那么,如何才能让AI突破这种“填鸭式”的束缚,获得真正意义上的成长呢?

告别“填鸭式”教育:像孩子一样在“大世界”中成长

Sutton教授给出的答案,是强调领域通用性、经验性和开放式抽象能力。这三个词听起来有点学术,但背后蕴含的理念,却无比接近我们人类的成长方式。

想象一下,一个初生的婴儿,对世界一无所知。它不会被“预装”任何关于世界的特定知识。它的心智,完全是在与世界互动、玩耍、探索的过程中一点一滴地构建起来的。它会因为好奇一个摇晃的拨浪鼓发出声音,而反复去摇动它,去学习如何控制这个声音。这就是经验性学习,所有的重要事情都发生在运行时,而不是在出厂设置时。

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

这背后的哲学,就是我们常说的大世界假设。这个世界远比我们想象的要庞大、复杂。它包含了无数其他智能体、无数细微的互动,它的动态是永不停息、不断变化的。我们这个小小的AI智能体,在这样一个浩瀚的世界面前,根本不可能在“工厂”里被预先植入所有知识。

打个比方,这就好比一个探险家,被空降到一片从未有人踏足的原始丛林。 你不可能提前给他一张包含了所有路径、所有生物、所有天气变化的详细地图。他必须在丛林中边走边学,遇到新的植物就去识别,遇到河流就去寻找过河的方法,遇到新的挑战就去创造新的应对策略。他的“地图”是在旅途中实时绘制的,他的“技能”也是在实践中不断磨练和创新的。

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

所以,OaK架构主张,AI的设计不应该依赖于它所处的特定世界。它需要的是一套元方法,一套能够自主发现和捕捉任意复杂性的学习方法。用Sutton教授的话说,我们希望AI能够“发现”,而不是仅仅“包含我们已经发现的东西”。这正是“苦涩的教训”所强调的核心:别试图把所有具体的知识都“硬编码”进去,因为世界的复杂性是无限的。我们应该让AI成为一个“学习者”,而不是一个“知识库”。

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

OaK的核心秘密:自我设定的“小目标”和“大计划”

那么,这个“OaK”究竟是什么呢?它的名字就藏着玄机:OaK = Options (选项) + Knowledge (知识)

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

这里的选项(Options),可不是简单的“向左走”、“向右走”这种基本动作。它指的是一种更高级、更复杂的行为模式,比如“走到厨房”、“泡一杯咖啡”。

打个比方,如果你是乐队的指挥,你不会只关注每个乐手弹奏的单个音符。你会下达“演奏行板”或“进入快板”这样的指令。这些“选项”就是一套包含了内部策略和终止条件的高级行为。

OaK架构的真正巧妙之处在于,它通过不断发现和学习这些“选项”,来构建对世界的知识(Knowledge)。它想知道:当我选择“泡一杯咖啡”这个选项时,会发生什么?它会带我到哪里?需要多长时间?这种知识,构成了世界的高层级转换模型,让AI能够进行更宏大、更深远的规划

但最让我拍案叫绝的,是OaK如何实现开放式抽象——也就是让AI能够自己“创造问题”和“发现概念”。这正是它区别于许多现有AI的关键。

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

在OaK中,智能体并不是被动地接受任务,而是会主动地为自己设定“子问题(Subproblems)”。这些子问题源于智能体对世界中“有意思的特征”的感知。

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

你可以把它想象成一个充满好奇心的孩子。 当他听到拨浪鼓发出清脆的声音时(一个“有意思的特征”),他会立刻产生一个“子问题”:“我怎样才能再次发出这个声音?”。他会尝试各种摇动方式,直到成功。这个过程中,他就学会了一个新的“选项”(摇动拨浪鼓发出声音),并且对这个“特征”有了更深的理解。

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

OaK的子问题,是奖励尊重的特征实现问题。什么意思呢?就是智能体要学习一个“选项”,去实现某个感兴趣的特征(比如“喝到咖啡”),但同时也要尊重主奖励(比如“不能把自己摔断腿”)。这就像你很想喝咖啡,但绝不会为了咖啡而选择一个需要你付出巨大代价(比如被捕或从楼梯上摔下来)的路径。

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区


这个过程是一个精彩的“发现循环”:

1.感知与特征生成:智能体通过“感知”模块,不断从行动和观察中提取出世界中“有意思的特征”。

2.提出子问题:针对那些被认为“重要”或“有价值”的特征,智能体主动为自己设定“子问题”,即“如何实现这个特征?”。

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

3.学习选项:智能体通过强化学习,找到解决这些子问题的“选项”(策略和终止条件)。

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

4.构建世界模型:智能体接着学习这些“选项”所带来的后果,形成更高级的“选项模型”——一种关于“如果我选择X,世界会怎样变化”的预测。

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

5.规划与优化:基于这些选项模型,智能体能够进行“规划”,预测长期结果,并优化自身的行为和价值判断。

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

6.反馈与迭代:最关键的是,整个过程中,智能体不断评估哪些特征是真正“有用”的,哪些“选项”是高效的。这种反馈信息会“回溯到特征生成环节”,指导智能体去发现更有意义的特征,从而形成一个永不停止、开放式的“发现循环”。

这就像一位技艺高超的厨师。 他不仅仅会烹饪已知的菜肴(解决主问题),还会因为某个新食材(有意思的特征)而萌生新的想法(子问题)。他会尝试各种搭配(学习选项),记录下这些搭配的效果(构建模型),然后根据客人的反馈(规划优化)来决定哪些新食材和烹饪方法是值得保留和推广的。这个过程不断重复,他的厨艺和对食材的理解也随之不断精进。

从“知其然”到“知其所以然”:OaK的宏伟蓝图与挑战

Sutton教授提出的OaK架构,在我看来,正是指明了通往“超级智能”的道路。它不再满足于让AI“知其然”,而是致力于让AI“知其所以然”。

OaK架构为我们回答了许多关于智能体的深刻问题:

高层次知识如何从低层次经验中学习?通过不断发现、解决子问题和学习高层级“选项”。

概念从何而来?源于智能体对世界中“有意思的特征”的自主发现和抽象。

玩耍的目的是什么?玩耍正是智能体主动设定子问题、探索世界、形成概念和心智结构的关键过程。

感知的目的是什么?感知不再是被动地识别标签,而是主动地提取能够帮助智能体解决问题、构建子问题的“概念”。

这无疑是一个宏伟的愿景。它承诺了一种完全基于经验、领域通用且具备开放式抽象能力的超级智能。这和我们团队一直以来对AI发展的思考不谋而合,令人兴奋。

当然,我也清楚地知道,这条路并非坦途。Sutton教授也坦承,OaK架构中仍有一些关键环节,我们虽然知道“应该怎么做”,但离“做好”还有距离。其中有两点,让我感触尤其深刻:

1.可靠的持续深度学习:OaK架构的成功,高度依赖于AI能够持续不断地学习,而不会“遗忘”之前学到的知识。这就像一个学霸,每次学新知识,都会忘记之前学过的。我们称之为“灾难性遗忘”。解决这个问题,是让OaK真正运转起来的关键。

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

2.自主生成新特征:OaK依赖于智能体自主发现并生成新的“有意思的特征”。虽然有很多想法,但目前还没有一个完美的、能通过梯度下降或其他方法自动构建完整特征网络的具体方案。这就像我们给了孩子一套乐高,但他能不能自主创造出从未见过的复杂结构,还缺乏一套行之有效的方法论。

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

Sutton教授对这两大挑战的解决抱有非常乐观的态度,甚至认为在未来几年内可能取得突破。他认为,如果一个深度学习方法能够像现在一样强大,同时又能持续学习,那将是AI领域的一场“革命”。我也坚信如此!

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

OaK架构为我们描绘了一幅激动人心的蓝图:一个真正能像生命一样,在经验中成长,在好奇心驱使下自我发现、自我迭代的智能体。它让我们重新思考AI的本质,从“给它知识”转向“给它学习知识的能力”。

作为AI研究者,我深知从愿景到现实的道路充满挑战。但正是这样的思想火花,点燃了我们探索未知的热情。或许有一天,我们能亲眼看到一个由OaK架构驱动的智能体,像一个孩子般天真烂漫,却又像一位哲人般深邃地理解和改造着我们所知的世界。

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

你对这样的未来智能体有什么期待或担忧吗?欢迎在评论区分享你的看法!

RLC25强化学习之父Rich Sutton重磅:大模型内置知识是死胡同,提出Oak超级智能新蓝图-AI.x社区

参考资料

• Rich Sutton, The OaK Architecture: A Vision of SuperIntelligence from Experience - RLC 2025

本文转载自旺知识,作者:旺知识

已于2025-9-2 06:38:34修改
收藏
回复
举报
回复
相关推荐