AI科学家的十年求索:从模型缩放到下一个“GPT-4时刻”

发布于 2025-8-20 07:45
浏览
0收藏

2024年初,当AI科学家张祥雨和他的团队启动一个万亿参数的多模态大模型项目时,他们正沿着一条业界公认的“黄金大道”前行:模型越大,能力越强。然而,九个多月后,一个百思不得其解的“反常识”现象出现了:模型的通用对话能力、情商和知识量确实在飞速增长,但在数学和逻辑推理这些“硬核”理科能力上,它的表现却在达到一个平台期后不升反降,甚至不如一个参数量小得多的模型。

这个怪现象如同一道裂缝,让张祥雨得以窥见当前大模型范式——“Next Token Prediction”(下一个词元预测)——背后一个深刻的本质缺陷。它不仅解释了为何模型越大,有时反而“越笨”,更指明了通往下一个革命性突破——真正的多模态推理与自主学习——的崎岖道路。

这不仅仅是一个技术难题的发现,更是张祥雨过去十年研究心路的一次浓缩与升华。从引领计算机视觉(CV)进入“深度”时代的ResNet,到对纯视觉智能的悲观,再到对多模态、长思维链和自主学习的全新构想,这条探索之路,描绘出了通往通用人工智能(AGI)的真实技术演进图景。

第一章:缩放的黄金时代与视觉的“GPT时刻”之困

张祥雨的学术生涯始于深度学习的“创世纪”。2012年,AlexNet的成功揭示了一个朴素而强大的真理:Scaling(缩放)。模型、数据、算力,只要将这三者同步放大,智能就会涌现。在微软亚洲研究院读博期间(2012-2016),他的核心工作正是围绕“Model Scaling”展开。他和何恺明、孙剑、任少卿等人提出的ResNet(残差网络),通过巧妙的“捷径连接”,解决了深度神经网络的梯度消失问题,成功将网络从十几层扩展到上百甚至上千层,成为计算机视觉领域至今仍在使用的基石架构。

然而,当模型缩放的红利被初步挖掘后,瓶颈再次转向了数据和算力。2016年后,张祥雨的研究重心一度转向“小模型”,探索如何在端侧设备上设计高效模型架构(NAS,神经网络架构搜索)。但他的目光很快又回到了大模型,只是这一次,挑战已截然不同。

19年起,自然语言处理(NLP)领域迎来了它的“GPT/BERT时刻”。通过“完形填空”(BERT)或“下一个词预测”(GPT)这样的自监督任务,NLP模型摆脱了对人工标注的依赖,得以在海量无标签文本上进行预训练,实现了惊人的Scaling Law——数据越多,模型越强,学到的表征越通用。

计算机视觉领域的研究者们对此既羡慕又焦虑。CV是否也能找到自己的“GPT时刻”?一时间,各种自监督方法层出不穷。从对比学习(Contrastive Learning)到掩码图像建模(MIM,以MAE为代表),社区看到了希望的曙光。这些方法在特定数据集上取得了接近甚至超越监督学习的效果。

但张祥雨对此始终保持“谨慎乐观”。他敏锐地指出,这些方法存在一个致命缺陷:它们所学习的“不变性”并非从数据中自然涌现,而是源于人工设计(Handcraft)。对比学习依赖于人工设计的数据增强(旋转、裁剪、变色等),本质上是强行让模型学会“旋转不变性”、“色彩不变性”。MIM则是让模型学会“遮挡不变性”。这些不变性固然重要,但它们只是人类认知世界的必要非充分条件。模型在少量数据上就能学会这些人造规则,当数据量继续扩大时,它无法从中获得新的信息增量,因此缺乏NLP那样的强大扩展性。

“你看NLP为什么这么work?它是真正做到了learn from data(从数据中学习)。”张祥雨总结道。这段探索让他得出一个悲观但深刻的结论:单纯依靠静态图像,CV领域可能永远无法迎来真正的“GPT时刻”。

第二章:静态图像的“原罪”与多模态的必然选择

为何纯视觉的道路走不通?张祥雨从一个更根本的哲学层面进行了解构。他认为,自然语言之所以能形成智能的闭环,是因为其生成、理解和人类对齐这三要素是统一的。GPT模型通过预测人类语料的下一个词,既建模了语言的概率分布(生成),也内隐地学会了上下文的关联(理解),同时其学习目标天然就与人类思维和表达方式对齐(人类对齐)。

然而,静态图像的世界是割裂的。

  1. 生成与理解的分离一个能完美生成所有图像的模型(即建模了像素间的联合概率分布),并不意味着它能以人类的方式去“理解”这些图像。图像是大自然的产物,它客观存在,但“如何理解它”这一信息,并不内含于图像本身。
  2. 与人类对齐的缺失语言的语料来自人类,而图像的语料来自大自然。在图像数据上训练生成模型,其分布天然与自然规律对齐,而非人类的认知规律。

这种“原罪”导致在静态图像上做再多的自监督,也难以形成人类意义上的“智能”。唯一的出路,是将图像嵌入到语言这个已经实现“三位一体”的模态中去。通过互联网上大量存在的图文交错数据,让图像“借用”语言的自闭环特性,通过与文字的对齐关系,获得被理解和生成的能力。

这便是通往多模态的逻辑必然。2023年,张祥雨团队研发了第一代多模态大模型。他们从预训练之初就采用图文混排的数据,模型在图像理解上表现出色,甚至能无缝处理写在图片上的文字。然而,在图像生成上,模型的可控性却极差。更关键的是,他们发现生成模块和理解模块像是两个独立的系统,移除任何一方,对另一方的性能几乎没有影响。

“生成和理解,在那个时间点看起来还是分开的。” 这次失败的尝试,让他意识到简单地将图文数据丢进一个模型,并不能真正实现两大模态的融合。这背后,还缺失了关键的一环。

第三章:万亿模型的“反常识”:压缩与推理的根本矛盾

解开谜题的钥匙,意外地出现在文章开头提到的那个万亿参数模型(Step-2)的“反常识”现象中。为什么模型越大,数学能力反而下降?

经过严谨的测试和分析,张祥雨发现了“蛛丝马迹”:更大的模型在处理数学题时,更倾向于**“跳步(Jumping Steps)”**。它不再像小模型那样老老实实地一步步推演,而是凭借其强大的容量,试图直接“记住”并输出最终答案。

这个行为模式直指“Next Token Prediction”范式的核心——压缩。从信息论的角度看,这个范式本质上是一个无损压缩器,它通过预测概率分布,尽可能地用最短的编码(最少的词元)来表示信息。当模型足够大时,对于“1+2+3=?”这样的问题,直接输出“6”比输出“1+2=3, 3+3=6”的压缩率更高。

“更大的压缩率,未必对应更高的计算精度。”张祥雨一语道破天机。

对于开放式对话,跳步无伤大雅,甚至显得更智能。但对于数学、逻辑这类要求过程严谨的任务,任何一步的跳跃都可能导致“积小错成大错”。一个复杂的推理鏈条中,只要有10%的步骤因为“跳步”而出错,最终的正确率就会急剧下降。这完美解释了为何万亿模型“文科”超强,“理科”却表现不佳。它被自己强大的“压缩本能”带入了歧途。

第四章:“元认知”的觉醒与真正的思维链

既然“压缩”这条路有缺陷,那么就需要一种直接面向“正确性”的优化方法。这引出了AI发展的下一个重要篇章:强化学习(Reinforcement Learning, RL)。通过奖励正确的答案、惩罚错误的答案,RL可以迫使模型寻找最可靠的路径,从而在一定程度上抑制了“跳步”的冲动。

然而,早期的RL应用收益有限。真正的突破,来自于以OpenAI的Q*为代表的一系列工作,张祥雨将其总结为一种全新的范式——“元思维链(Meta Chain-of-Thought)”

传统的思维链(COT)是将一个复杂问题拆解成线性步骤。但对于更复杂的问题,我们甚至无法预知应该采用哪一种思维链。而“元思维链”范式,通过引入**反思(Reflection)**机制,让模型不再是“落子无悔”,而是在一个网状的思维空间里进行探索。

“如果我允许它按两条分支都走,那不就解决了?” 张祥雨解释道。模型可以先尝试一条路径,走到一半发现不对,然后“反悔”,退回到上一个分叉口,再尝试另一条路径。

这种范式的惊人之处在于其无与伦比的泛化能力。张祥雨团队做了一个实验:只用纯数学数据训练一个具备“元思维链”能力的模型,然后让它去挑战从未见过的古诗词创作。令人震惊的是,模型自发地激发出了类似解数学题的思考模式:先生成一个草稿,然后逐字检查格律、押韵,发现不妥后进行修改,甚至推翻重来,整个过程充满了“验证”、“回溯”、“审题”等高级思维模式。

它泛化的不是知识,而是思考的模式(Pattern of Thought)。这种能力的根源,在于预训练语料中虽然稀疏但广泛存在的、由人类留下的各种思维模式的痕迹(例如,在技术论坛上,高手们解决难题时一步步试错、修正的过程)。RL的作用,就是将这些宝贵的“思维模式火种”激发并强化,让模型得以融会贯通。

第五章:下一个GPT-4时刻:视觉思维链的诞生

当张祥雨带着对“元思维链”的全新理解,重新审视多模态生成与理解一体化的难题时,一切豁然开朗。

为什么图像生成的可控性差?因为它还停留在语言模型最原始的“一口爆”时代,它缺少自己的**“视觉思维链(Visual COT)”**。生成一张包含复杂逻辑(如“画一个正在解鸡兔同笼问题的黑板”)的图像,其内在复杂度远超模型单步生成的上限。无论是Auto-regressive还是Diffusion模型,本质上都是试图一步到位,这必然导致失败。

通往下一个“GPT-4时刻”——真正的多模态推理——的路径也因此变得清晰:必须为视觉赋予思维链

张祥雨构思了两条并行的路径:

  1. 从数据入手,挖掘视频宝藏大量的教学类视频,包含了丰富的、一步步的视觉思考过程(如老师在黑板上画辅助线、用激光笔指点)。将这些带有过程化的视觉数据引入训练,可以为模型提供天然的“视觉思维链”养料。
  2. 从能力入手,打造可控生成“原子操作”首先要实现高可控的、指令性的简单图像生成与编辑。例如“连接A和B两点”、“移除图中的某个人”。这些任务复杂度低,可以在现有架构下通过精细的数据清洗和控制实现。

一旦这些简单的、可控的生成能力(可以视为视觉的“原子操作”)得以实现,它们就可以被整合进一个更宏大的推理框架中。模型将不再是一步生成最终图像,而是可以像人类画家一样:先生成一个草稿(一个原子操作),然后审视草稿并进行反思,接着擦除不满意的部分(第二个原子操作),再添加新的细节(第三个原子操作)……

在这个过程中,生成即是推理,推理引导生成。当模型能够在视觉空间中进行这种带反思的、多步骤的“慢思考”时,生成与理解的鸿沟将被彻底填平。

“这就是我想象中的,下一个多模态的GPT-4时刻。”张祥雨预测,由于前置技术看起来都已就绪,这一刻的到来将“非常快”,可能就在一到两年之内

终章:超越当前范式,奔向自主学习的未来

在多模态推理之后,AGI的版图上还有两片更广阔的大陆:长上下文(Long Context)和自主学习(Autonomous Learning)

张祥雨批判了当前对长上下文的“军备竞赛”。他认为,将所有信息不加压缩地塞入一个无限长的Context,就像一个只有短期记忆但容量无限的大脑,会因信息干扰导致“注意力涣散”,性能下降。未来的架构,更可能模仿人脑的分区协作机制,由不同的模型/模块扮演“规划者”、“执行者”、“记忆体”等角色,通过高效协作来处理长序列任务,而非依赖单一模型的蛮力。

而最终的圣杯,无疑是自主学习与在线学习。当前基于RL的范式,本质上仍是“KPI驱动”,依赖人类设计的环境和奖励信号,模型训练完成后便无法再进化。而真正的智能体,应该具备内生的驱动力,能够自主探索环境,从非结构化的自然反馈(比如一句模糊的批评“你这篇文章写得有点干巴”)中学习和提升自己。

“这其实就是下一代自主学习要解决的问题。”张翔-宇判断,尽管挑战巨大,但在全球研究者的共同努力下,这一领域的突破也可能在两到三年内发生。

从ResNet的深度探索,到对静态图像局限性的洞察,从万亿模型“反常识”的发现,到“元思维链”的顿悟,再到对视觉思维链和自主学习的清晰擘画,张祥雨的十年求索,为我们揭示了AI技术演进的内在逻辑:它并非线性的参数增长,而是一个在“底层算法”和“模态扩展”两轴上螺旋上升的认知迭代过程。

我们正站在又一个范式革命的前夜。当机器不仅能看懂世界,更能像我们一样,在脑海中(或画布上)一步步地思考、规划、创作和反思时,一个真正意义上的智能时代,才算刚刚拉开序幕。

本文转载自​​​草台AI​​​,作者:RangerEX

收藏
回复
举报
回复
相关推荐