图灵奖得主 Barto 和 Sutton 的故事:强化学习的奠基和未来

发布于 2025-8-20 07:18
浏览
0收藏

你有没有过这种体验?第一次学做番茄炒蛋,妈妈没说“油热到冒烟再下蛋”,只在你炒糊时皱眉,炒嫩时点头;第一次学骑车,没人给你列“平衡公式”,摔了几次后,身体自己就记住了怎么调整车把。

我最近在读强化学习奠基人Barto和Sutton的访谈,突然意识到:原来我们每天都在经历的“试错学习”,正是AlphaGo能打败世界冠军、AI能自己摸索出最优策略的核心密码。这篇文章就带你拆透这个让机器学会“从经验中成长”的神奇逻辑——不用公式,全是你能感同身受的日常。

我们解读最新技术,文末有相关信息。

神经元不是“逻辑门”?一场关于“享乐主义”的疯狂猜想

故事得从1970年代说起。那时候,科学界普遍觉得神经元就像电脑里的逻辑门,接收信号、输出结果,按固定规则干活。但Barto和Sutton所在的团队,却在琢磨一个“疯狂想法”:神经元会不会是“享乐主义者”?——总在偷偷琢磨怎么多赚点“甜头”,少挨点“苦头”。

我刚开始看到这个比喻时,差点笑出声。但细想一下,这思路太颠覆了:如果神经元真的在追求“最大化奖励”,那大脑的学习就不是按预设程序走,而是像个在游乐场里找最好玩项目的孩子——试遍所有选项,记住哪个最爽。

更妙的是,他们当时有个“神仙工作环境”:五年时间,不用教课,不用应付考核,就专心验证这个猜想。Sutton后来回忆,这多亏了空军的资助——当时一位叫Harry Klopf的学者觉得“机器学习不该只做 pattern recognition(模式识别),得让机器像生物一样自己探索”,硬是说服了军方掏钱。

这就像现在的AI研究者突然被放了五年假,不用写论文,只管琢磨“机器怎么像人一样瞎折腾也能学会东西”。这种自由,恰恰埋下了强化学习的第一颗种子。

强化学习:不给“标准答案”,只说“好”或“不好”

现在你打开导航软件,它会直接告诉你“左转300米”——这是“指令式学习”,就像老师把答案直接写在黑板上。

但强化学习完全反着来。它给的不是“该做什么”,而是“做得怎么样”。就像你玩游戏时,系统不会说“这步该出拳”,只会在你赢了加100分,输了扣50分。

Barto在访谈里举了个特别形象的例子:下棋时,没人会提前告诉你“第三步必须跳马”,但你会记住“上次走这步后来输了”,“那次走那步最后赢了”。这种“从结果反推动作”的逻辑,就是强化学习的核心。

我把它比作“黑暗中摸开关”:你不知道开关在哪,只能伸手乱摸(试错),摸到了灯亮了(奖励),就记住“刚才手的位置大概对”;没摸到(无奖励),就换个地方再试。机器就是这么“摸”出最优策略的。

解决“延迟满足”难题:为什么你会记住“多走一步就有糖吃”

这里有个关键问题:如果奖励来得太晚,机器怎么知道该感谢哪个动作?

比如训练小狗捡球:它跑过去、用嘴叼、叼回来,你才给零食。它怎么知道“叼回来”是关键,而不是“跑过去时摇了尾巴”?

这就是Barto和Sutton提出的“时间差分学习(TD学习)”要解决的问题。简单说,就是把“迟到的大奖励”拆成“一路上的小鼓励”。

就像你玩闯关游戏,最终Boss给1000分,但每过一个小关卡给100分。TD学习就像游戏系统,在你靠近目标时就提前给点“预告奖励”,让你知道“往这个方向走是对的”。

最神奇的是,后来科学家发现,我们大脑里的多巴胺神经元,居然就是这么干活的!当你看到蛋糕店招牌(预示着甜食奖励),多巴胺就开始分泌——它不是等你吃到蛋糕才反应,而是提前“预报奖励”。Barto说,看到这个研究数据时,他差点拍桌子:“这不就是我们设计的TD算法吗?”

我觉得这是最妙的“跨学科撞车”:工程师搞出来的算法,居然和大脑的运作机制不谋而合。

模型派vs.直觉派:原来AI也需要“既看地图又信感觉”

强化学习发展到后来,学界吵过一场架:到底是让机器先学“世界模型”(比如先看懂地图),还是让它纯靠直觉试错?

Sutton在访谈里说,1990年代他们争论了十年,最后发现:得两者都要。

这就像你去陌生城市旅游:模型派是“先看地图规划路线”,直觉派是“走到哪算哪,错了再绕”。单独用地图,可能错过小巷里的好吃的;单独靠直觉,可能绕到天黑。

现在的AI,比如AlphaGo,就是这么干的:它既用“模型”记住棋盘的规律,又用“直觉”在关键时刻打破常规——这也是它能下出人类从没见过的“神之一手”的原因。

Sutton还补了句特别实在的话:“所有模型都是错的,但有些很好用。”就像我们看天气预报,知道它不准,但出门还是会参考——AI也懂这个道理。

别被“深度学习”带偏:真正的智能,得有自己的“小目标”

现在大家都在聊大语言模型(LLM),但Sutton有个犀利观点:很多所谓的“AI智能”,其实是在“模仿人类”,而不是“自己学习”。

比如ChatGPT,它能写文章是因为读了全网的文字,本质是“猜人类接下来会说什么”。但强化学习训练的AI,有自己的“小目标”——比如“赢棋”“拿到高分”,会为了这个目标主动试错。

这就像两个学生:一个靠背范文拿高分(LLM),一个靠自己琢磨“怎么写能打动老师”(强化学习)。前者很厉害,但后者更像“真的在学”。

当然,两者现在也在合作。比如让大语言模型更听话的RLHF(人类反馈强化学习),就是用强化学习的逻辑,告诉模型“刚才那句话人类听着舒服”“那句不太对”。

未来会怎样?从“学做题”到“持续成长”

Sutton现在在推进一个“阿尔伯塔计划”,目标是让AI像人一样“持续学习”。现在的深度学习模型,学完就“冻住”了,想更新知识得重新训练;但人可以边学边用,今天懂一点,明天再添点新的。

他说,第一步先搞定“线性监督学习”(简单说就是学规则),下一步突破“非线性”(像人一样举一反三),最终让AI能“活到老学到老”。

我觉得这才是最值得期待的:未来的AI可能不会一上来就什么都会,但它会像个小孩,摔倒了知道爬起来,做错了知道改,慢慢找到自己的生存智慧。

最后说句心里话

读Barto和Sutton的故事,最打动我的不是他们发明了多少算法,而是他们对“学习本质”的追问:智能不是记住标准答案,而是在混乱中摸索出规律,在延迟中识别出因果。

这和我们每个人的成长多像啊——没人能提前知道“选什么专业、做什么工作”是绝对正确的,我们都是在“试错-反馈-调整”中,慢慢活成自己的样子。

或许有一天,当AI真的学会“持续学习”时,我们能从它们身上,更清楚地看到自己成长的秘密。

你觉得,要是AI有了“自己的目标”,会先学什么呢?欢迎在评论区聊聊你的想法。

参考资料

• 标题:Developing the Foundations of Reinforcement Learning

• 作者:Leah Hoffmann, Andrew G. Barto, Richard S. Sutton(ACM图灵奖得主)

• 链接:https://cacm.acm.org/news/developing-the-foundations-of-reinforcment-learning/

作者:张长旺,图源:旺知识

本文转载自​​​​​​​​旺知识,作者:旺知识

收藏
回复
举报
回复
相关推荐