人工智能进入 “下半场”,未来将走向何方? 精华

发布于 2025-4-24 06:20
浏览
0收藏

在科技飞速发展的今天,人工智能(AI)已经成为大家耳熟能详的词汇。从手机里能陪你聊天的智能语音助手,到能自动识别照片内容的图像软件,AI的身影无处不在。不过,你知道吗?AI的发展正迎来一个关键转折点,就像一场比赛进入了下半场。今天,就让我们一起深入了解AI的这场“下半场”变革。

一、AI上半场:模型与方法的狂欢

(一)辉煌成就:打败人类冠军,通过各类考试

过去几十年,AI取得了不少令人惊叹的成绩。在棋盘上,AI化身“棋艺高手”,战胜了世界象棋和围棋冠军;面对学术考试,它也毫不逊色,在SAT考试和律师资格考试中超越了大部分人类;甚至在国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)这样的高难度竞赛中,AI也能勇夺金牌。这些成果背后,是一个个闪耀的名字:深蓝(DeepBlue)、阿尔法狗(AlphaGo)、GPT - 4等,它们代表着AI发展历程中的重要里程碑。

(二)关键创新:训练方法和模型的突破

这些成就的取得,离不开AI在训练方法和模型上的创新。就好比建造高楼大厦,训练方法和模型就是大厦的基石和设计蓝图。像Transformer这样的创新,为AI带来了全新的架构思路,它就像一个神奇的“智能引擎”,在自然语言处理、计算机视觉等多个领域发挥着巨大作用,让AI处理信息的能力大幅提升。还有卷积神经网络(如AlexNet),它让AI在图像识别领域实现了质的飞跃,能够像人类一样“看懂”图片里的内容。这些创新就像给AI注入了强大的“能量药水”,让它不断进化变强。

(三)比赛规则:重训练轻评估

在AI发展的上半场,大家关注的焦点主要是训练方法和模型。就像一场比赛,参赛选手都在努力打造更厉害的“武器”(模型和方法),而对比赛场地(评估和基准测试)的重视程度相对较低。研究员通过查看那些影响力较大的AI论文发现,像Transformer、AlexNet、GPT - 3这些论文,提出的都是训练模型的新方法和新思路,并且通过在一些基准测试中取得的显著进步来证明自己的成果。相比之下,即使是影响力较大的基准测试,如ImageNet,它的引用次数也远远低于像AlexNet这样的模型论文。这就好比在一场发明比赛中,大家都在比拼谁发明的工具更厉害,而对用来测试工具的场地是否合适、是否能全面评估工具的性能,却没有那么在意。

为什么会这样呢?一方面,创造新的算法或模型架构难度很大,需要研究人员具备深厚的专业知识和敏锐的洞察力,就像建造一座前所未有的超级建筑,需要顶尖的设计师和工程师一样。另一方面,给AI定义任务相对来说比较简单,很多时候就是把人类日常做的事情,比如翻译、识别图片、下棋等,转化为AI的测试任务,不需要太多创新和复杂的工程设计。而且,新的训练方法和模型往往具有通用性,能在多个领域发挥作用,就像一把万能钥匙,可以打开不同领域的“大门”,所以大家更热衷于研究它们。

二、通向“下半场”的关键钥匙:强化学习的突破

(一)强化学习的困境与突破

在AI领域,强化学习(RL)一直被视为“终局游戏”,理论上它能让AI在各种任务中获胜。想象一下,强化学习就像是训练一个聪明的小机器人,通过不断地尝试和反馈,让它学会如何在复杂的环境中做出最优决策。比如,让小机器人在迷宫里找出口,它每次尝试不同的路径,根据是否接近出口得到奖励或惩罚,从而逐渐找到最佳路线。

但在很长一段时间里,强化学习遇到了不少难题。研究人员大多把精力放在研究算法上,就像只关注小机器人的“大脑程序”怎么编写,却忽略了小机器人所处的环境和它一开始具备的“知识储备”(先验知识)。结果就是,研究出的算法在一些简单的模拟环境中表现得很好,可一旦放到真实复杂的环境里,就“水土不服”了。比如,训练一个玩游戏的智能体,它在特定的游戏环境里是“游戏高手”,但换个游戏就完全不行了。

后来,随着GPT - 2、GPT - 3等语言模型的出现,这个难题有了转机。大家发现,缺失的关键部分是先验知识。通过大规模的语言预训练,可以把通用的常识和语言知识“灌输”到模型里,就像给小机器人提前“预习”了很多知识,让它变得更聪明。这些预训练的模型经过微调,就能变成各种不同用途的智能体,比如聊天机器人ChatGPT,它可以和人们顺畅地交流;还有WebGPT,能帮助人们在网络上更好地获取信息。

(二)推理:强化学习的“神奇魔法”

有了先验知识还不够,研究人员又发现了一个让强化学习更强大的“秘密武器”——推理。想象你在做菜,发现盐用完了,这时你会想:“菜需要有咸味,盐没了,那就找酱油代替,酱油在右边的橱柜里。”这个思考的过程就是推理。对于智能体来说,推理就像是一种特殊的“隐形行动”,虽然它不会直接改变外部世界,但能帮助智能体在复杂的情况下做出更好的决策。

在传统的强化学习理论里,决策的选择空间是有限的,如果选择空间突然变得无限大,就像在一堆盒子里找一个有奖励的盒子,突然增加了无数个空盒子,决策就会变得非常困难。但把推理加入到强化学习的行动空间里,就不一样了。借助语言预训练的先验知识,智能体可以利用推理更好地理解环境、做出决策,而且在面对不同的情况时能灵活地进行思考和计算。这就好比你在玩一个找宝藏的游戏,虽然增加了很多干扰的“空盒子”,但因为你之前玩过很多类似的游戏,积累了经验(先验知识),所以还是能更准确地找到宝藏。这就是推理在强化学习中的神奇作用,它让智能体能够更好地适应复杂多变的环境,实现更广泛的应用。

三、AI下半场:重新定义问题与评估标准

(一)上半场游戏的“落幕”

AI上半场的游戏规则是:不断开发新的训练方法和模型,在基准测试中取得更好的成绩,然后再创造更难的基准测试,继续这个循环。但现在,这个游戏遇到了问题。随着前面提到的训练方法和模型越来越成熟,形成了一套标准化的“配方”,它能在基准测试中轻松取得好成绩,而且不需要太多新的创意。比如,研究人员辛辛苦苦研发出一种新方法,可能只能让某个任务的成绩提高5%,但像o - series这样的新模型,即使没有专门针对这个任务进行优化,也能提高30%的成绩。

人工智能进入 “下半场”,未来将走向何方?-AI.x社区

而且,新创造的更难的基准测试,也很快会被现有的“配方”攻克。研究员的同事Jason Wei制作了一张图表,清楚地展示了过去五年AI在各种基准测试中的进展。像TriviaQA这样的问答测试、MMLU这样的综合考试测试,以及数学相关的GSM8K、MATH等测试,AI的准确率都在不断提高,解决这些测试任务的速度也越来越快。这就好比一场考试,学生们掌握了一套万能的解题方法,不管试卷怎么变难,他们都能轻松应对,这样考试就失去了原本筛选和评估的意义。

(二)下半场的新挑战:重新思考评估

既然传统的游戏规则行不通了,那AI下半场该怎么玩呢?研究员认为,我们需要从根本上重新思考评估方式。这不仅仅是创造新的、更难的基准测试,而是要对现有的评估体系提出质疑,建立全新的评估标准。为什么要这样做呢?因为现有的评估方式和现实世界的情况存在很大差异,这导致了一个严重的问题——效用问题。

虽然AI在很多比赛和考试中表现出色,打败了人类冠军,通过了各种高难度考试,但从经济和GDP等方面来看,它对现实世界的影响并没有预期的那么大。就好像一个学生在学校里考试成绩非常好,各种竞赛都拿奖,但进入社会后,却发现自己所学的知识并不能很好地解决实际工作和生活中的问题。

比如说,现有的评估通常要求智能体自动运行任务,接收输入、自主完成任务,然后获得奖励。但在现实生活中,很多任务都需要智能体和人类进行持续的互动。你在和客服沟通时,不会发一条很长的消息,然后等10分钟就期望得到一个完美的解决方案,而是会和客服来回交流。针对这个问题,新的基准测试,如Chatbot Arena,开始引入真实人类参与互动;tau - bench则通过模拟用户来改进评估方式。

人工智能进入 “下半场”,未来将走向何方?-AI.x社区

再比如,现有的评估往往假设任务是独立同分布的,就像有500道测试题,每道题都独立进行测试,然后计算平均分。但在现实中,人们解决问题是有顺序的,会随着经验的积累越做越好。一个谷歌的软件工程师在处理谷歌内部的问题时,会因为对代码库越来越熟悉而解决问题的能力越来越强,可一个软件工程师智能体在处理相同代码库的问题时,却无法获得这种经验积累带来的优势。这说明现有的评估方式没有考虑到现实中的这种情况,我们需要新的评估方式来适应现实需求。

(三)下半场的新玩法:注重实际效用

AI下半场的游戏规则变成了:开发针对现实世界实际效用的新评估方式和任务,然后用现有的方法或者结合新的组件来解决这些问题,接着再不断循环这个过程。虽然这个新游戏对大家来说比较陌生,玩起来有难度,但却充满了机遇。在上半场,AI主要是在虚拟的游戏和考试场景中“大显身手”,而在下半场,它将走向现实世界,创造出具有实际价值的产品,打造出价值数十亿美元甚至万亿美元的公司。

在这个过程中,那些小打小闹的改进方法可能不再管用,因为现有的成熟“配方”就能轻松超越它们。只有当你提出全新的假设,打破现有的“配方”,才能进行真正具有变革性的研究。这就像是在一场全新的比赛中,过去的战术可能不再适用,你需要想出全新的策略,才能脱颖而出。

四、总结与展望

AI的发展就像一场漫长的马拉松比赛,现在已经进入了下半场。上半场,我们见证了AI在训练方法和模型上的巨大突破,取得了许多令人瞩目的成绩;下半场,面对新的挑战和机遇,AI需要更加贴近现实世界,解决实际问题,创造真正的价值。通过重新思考评估方式,我们有望找到更适合AI发展的道路,让它在未来发挥更大的作用。

也许在不久的将来,AI会像电力、互联网一样,深入到我们生活的每一个角落,改变我们的工作、学习和生活方式。让我们一起期待AI在这场“下半场”比赛中创造更多的奇迹,为人类的发展带来更多的惊喜。

作者:张长旺,图源:旺知识

参考资料

  • 标题:The Second Half
  • 作者:Shunyu Yao
  • 单位:OpenAI
  • 链接:https://ysymyth.github.io/The-Second-Half/

本文转载自​旺知识,作者:旺知识

收藏
回复
举报
回复
相关推荐