Sora的狂欢、世界模型和AGI

发布于 2024-4-28 15:48
浏览
0收藏
Sora是OpenAI发布的一款视频生成模型,采用了Diffusion Transformer架构,旨在实现高保真度和视频图像的前后一致性。其突出之处在于能够生成逼真流畅的视频内容,令人惊叹不已。Sora 一经推出便在极短的时间内迅速引起了科技界和社会各界的关注,同时也引发了关于AI技术发展和产业变革的激烈讨论,日前,MoPaaS 魔泊云创始人和CEO鲁为民博士参与腾讯科技举办的:与硅谷专家和创业者共同探讨:Sora的商业逻辑与技术创新分析直播活动,同硅谷专家和创业者共同深入探讨了Sora模型的技术特点、可能的应用场景以及对人工智能领域的影响,本文整理了鲁为民博士的发言部分 (文字有补充),为读者提供了了解Sora及人工智能发展趋势的视角。

01Sora的出现,到底有哪些惊艳之处?


腾讯科技:第一次了解到Sora,最让你惊讶或惊艳的地方在哪里?

鲁为民:这次OpenAI 发布Sora生成的每一个视频都很让我惊叹,特别是其高保真的效果以及视频图像的前后一致性。但是有一个视频让我印象最深刻,就是装着果汁的玻璃杯在桌子上破碎的视频,“果汁洒在桌面上,杯子横在桌面上,杯子有一部分变扁,但是没有玻璃碎片。” 这个事件发生的次序在物理世界是不可能的,但是视频中各个事件的连贯表现得十分丝滑。Sora 模型生成的视频让人惊艳,但也展现出大模型一直存在违背规律和事实的“悖谬”和“幻觉”;这个也是对我们的一个提醒:Sora的实际应用还存在一些待解决的问题,更不用说 Sora 离世界模拟器还有相当的距离。

Sora的狂欢、世界模型和AGI-AI.x社区

,时长00:08

腾讯科技:Sora生成的视频中还是有不稳定的情况产生,你可以看到一些逻辑明显错误的视频出来,而OpenAI也并不避讳放出这些视频,为什么会有这些不稳定的情况出现?

鲁为民:基于Transformer的生成式模型是一种计算Token生成概率的预测模型。我认为只要牵涉到概率的模型,就会有一定的近似和不确定性,使得视频的生成呈现不稳定性,甚至出现明显的逻辑错误。另一方面,训练数据也很重要。训练数据中包含一些场景,但这些场景是否能完全覆盖生成的应用场景是一个问题。例如,前面提到的玻璃杯破碎的场景,可能在之前的训练数据中,这种场景可能并不存在;在这种情况下,模型可能会对生成视频做出最可能出现的预测,即模型依赖概率来估计图像出现的时间序列,但后来我们发现,这种估计在时间次序上并不符合物理规律或逻辑。

此外,对于一般正常的场景,视频的呈现通常是平滑且连续的。然而,对于突然变化的场景,比如玻璃杯突然碎裂,以及不常发生的边角事件在近似的模型中很难被准确模拟。尽管一般认为神经网络可以近似任何类型的线性或非线性关系,无论是连续还是非连续的,但它们仍然是近似并存在误差。在某些场景中,这些误差的结果可能导致模型在表达世界时呈现物理原理、因果关系和时空细节等方面的错误。

这种问题不仅仅是在当前的Sora模型中存在,Gemini 和GPT系列的大模型也有类似的情况。这从经验上也证实幻觉问题是这类模型架构存在的一个先天性问题。当然,我们可以不断地对模型进行细致的优化,不断去逼近这个模型系统真实的解,但很难完全消除这样的问题。然而,这并不妨碍这类模型在许多合适场景中的广泛应用。

另外对于这类模型,包括将视觉元素整合进去的环境建模或物理世界建模,我们基本上有两种不同的方法。一种方法是数据驱动的,比如Sora,使用扩散Transformer架构,延续了语言大模型的思路,通过大量的互联网规模的数据来训练模型。另一种方法,应用第一性原则来建模,比如Unreal Engine主要基于物理规律和其它数学模型生成图像和视频;所以如果使用用依赖基于第一性原则的Unreal Engine来建模,那么能够覆盖的场景范围与可以这样建模的场景数量和其普遍性有关。

这两种方法代表了不同的思路。前者可能使得模型学习更广泛的知识,可能涌现非设计的能力。后者可以建立更精确的模型。当然,如果能够将这两种方法结合起来,比如通过大模型来调用基于第一原则的生成视频的工具,可能可以呈现两者最好的一面。但是也可能被某一方法的局限,比如有可能你想要生成的视频内容是像Unreal Engine这样的视频生成引擎无法覆盖的场景。所以通过基础模型调用专有工具可能是一把双刃剑,既有其优势,也可能带来一些问题。

Sora的狂欢、世界模型和AGI-AI.x社区

02Sora接近世界模型吗


腾讯科技:这个话题直接让人联想到最近讨论的物理世界引擎。OpenAI在Sora的技术报告中也刻意避免了世界模型这种词汇,只是说这可能是AI通向物理世界的一个有希望的道路,各位怎么看呢?

鲁为民:图灵奖获得者Yann LeCun提出了世界模型的概念,现在对世界模型概念都存在着支持和排斥两种迥然不同的观点,它们各自都有其合理性。

我个人对图灵奖获得者Yann LeCun的世界模型的观点有一定程度的认可,尤其是在当前条件下,从第一性原理出发来对世界进行建模,可能更方便其应用在特定的场景。另外,他的世界模型架构通过对环境的感知以及与环境的互动来生成行为,形成反馈闭环,从而进一步学习影响环境。虽然这种世界模型的思路有其合理性,但目前还没有特别突出的实际应用。虽然最近 Meta 发布了 V-JEPA 视频模型,声称是一个早期的LeCun物理世界模型,并在检测和理解物体之间的高度详细的交互方面表现出色,在推动机器智能迈向了更加深入理解世界的重要一步。但其锋芒被风头正劲的OpenAI Sora 模型所掩盖。

因为现在已经有了足够的条件,比如大算力和互联网规模的数据,可以大规模地训练数据驱动的模型,使得像Sora这样的数据驱动的生成模型的性能和效果、灵活性和涌现能力表现出色,在很多场景其生成的内容令人惊艳。虽然目前来看(高质量的)训练数据可能还不够,但我们一方面在不断努力增加数据量,另一方面通过人工或合成的方式提高数据的多样性和质量,确保数据的多样性和质量。

在这两个条件的基础上,再加上新的模型架构,比如这次Sora采用以Diffusion Transformer为主的架构,确实能够通过大力出奇迹的方式学习到一些关于环境或世界的知识,特别是它能够利用足够大的容量在某种程度上学会对世界的理解。

从这个角度来看,效果是显而易见的,它在视频长程一致性、3D一致性以及与现实世界的交互能力等方面的表现让人印象深刻,例如吃了一个汉堡包后能留下缺口,或者狗被遮挡后再出现的场景。这些都是模型从现有数据学到的关于世界的知识。虽然Sora还可能不能完全理解世界,还存在违背规律和事实的“悖谬”和“幻觉”,但我相信通过OpenAI和其它机构的持续努力,像 Sora 这类模型将会不断地改进。希望在没有其它更好的替代方法之前,能够在应用中能够充分利用这样的进展,在合适的应用场景中产生一些正面的结果。

(除了世界模型,AGI也是人们常谈到的一个相关概念。) 实际上AGI的没有一个大家公认的定义。按照Wikipedia,AGI 可以学习完成人类能够执行的任何智力任务,即在大多数经济上有价值的任务中超越人类智能;AGI 是一个假设性的概念,所以其目标目前也不太可能定义得非常明确。建立世界模型是实现 AGI的一条合理可信的路径。现在有关世界模型和AGI的各种实践应该是没有问题的;虽然各自发展的具体路径会因为目标的不同而有所不同,但我们相信在目前这个阶段这种百花齐放的多样性是有益的。

我们之前讨论过,对于AI系统的发展与其设定一个像 AGI 一样遥远的目标去试图一步到位实现,现在AI技术的推动实际上是沿著一种更为现实灵活的途径。实际上,最近这些年AI的发展,我们首先看到的是语言模型的突破,语言模型已经在语言理解、生成和处理方面取得了惊人的进展,尽管还有很多问题需要解决,但至少我们看到了语言模型已经在跨越应用的门槛。现在轮到视频视觉了,像今天的 Sora 已经初步显示视频模态理解、处理和生成的巨大应用潜力。

接下来,我们可能会看到更多的模态融合,不仅仅是语言和视频,还包括语音、视觉、味觉甚至嗅觉等不同的模态。这些模态的加入可能会让模型对现实世界和环境有更深的理解。具备了这样的条件之后,我们再去讨论对物理世界的理解、对人类环境的理解以及世界模型等概念,可能会更加水到渠成。

当然,要建立世界模型和达到 AGI,像Gemini、GPT-x和Sora 这样的(语言或多模态)大模型可能远远不够,因为这类基于 Transformer 的大模型存在的一些包括对物理规律、逻辑、和实事上的悖谬和幻觉根本问题。需要在大模型本身能力的基础上,系统需要加强或增加推理、规划、搜索和行动等能力,以及具备自我改进和持续学习能力,让系统逼近人类可接受的世界模型。而智能体 (Agents) 是实现这样的整合能力的一个合理的框架。

Sora的狂欢、世界模型和AGI-AI.x社区

03Sora的出现,会带来哪些创业生态的改变


腾讯科技:回到Sora,目前OpenAI只是开放了一小部分试用,未来还会有什么更广阔的应用场景?

鲁为民:目前,尽管Sora一亮像就很惊艳,但存在一些问题。例如,这些模型并不总是能够生成令人满意的图片和视频,有时甚至会出现在物理规律和逻辑上的严重错误。我们之前使用 ChatGPT时,可能也经常遇到类似的问题。

一方面,我相信随着时间的推移,这些模型的优化使得其应用会变得更加成熟,成本会降低,也会有更多人使用。但具体来说,这些模型适合于哪些用户群体目前还不太明确。比如,相比于语言模型,视频生成模型可能更加小众。AI从业者还需要不断地应对各种各样的挑战。然而,我更关注这些模型对于更长远目标实现的影响,比如我们需要它们对其环境有更好的理解和对世界有更强的认知能力。因为从长远来看,我看好这些模型的应用能力可以扩展到能为机器人等真正地提供“大脑”,通过这些模型来增强它们的理解、推理和规划能力。我相信这样的应用方向可能会带来更高的价值,并且更广泛地惠及大众。

另外,Sora 的能力很大程度上依赖 “暴力出奇迹”,使得Sora在很多方面表现出色,有潜在的广泛应用前景。但是像其它大模型一样,其计算算力成本也是需要考虑的问题,尤其是视频生成模型的推理成本往往远高于类似能力的语言模型。如何降低模型的应用成本,提高相适应的性能和能力的回报,这需要在模型架构的设计时平衡考虑。

腾讯科技:“暴力出奇迹”的方法是不是也有瓶颈?目前模型已经出现“涌现能力”当你再加大数据量的时候,是不是也不会再让模型更优化?

鲁为民:Sora 在实践上也呈现规模优势和涌现特性,即通过(高质量的)数据、模型参数和算力的扩展,性能和能力的显著提升。但数据和计算资源往往不是唾手可得的。模型的发展还有必要从其它方面突破。我觉得接下来的模型发展可以从两方面来考虑,一个是模型继续改进,另外一个是有没有新的模型架构的出现?

刚刚提到数据的挑战,数据对模型的改进非常重要。特别是在物理世界和机器人等领域,相关的经验数据的获取因为受限往往缺失或不完整,这些数据与互联网数据有很大不同。我们需要考虑如何在这些特定环境中利用有限的数据建立更好的模型,同时考虑必要时如何生成相关的数据,例如机器人系统通过与环境的交互学习并影响环境,这涉及到强化学习,是一个有挑战性的问题。

另外,世界的模型并非完全开放,它们仍然受到许多约束,比如我们需要模型避免与人类价值观的不一致。目前,通过人类反馈进行强化学习等技术来微调模型是目前一个很好的实践方向,但还有很多发展空间。此外这类生成式 AI大模型在理解生成上都有局限性,特别是在一些边角场景中,模型可能不可靠。这些和其它的问题使得大模型在理解和模拟物理世界可能存在违背规律、逻辑和事实的“悖谬”和“幻觉”。

像Gemini、GPT-x和Sora 这样的生成式 AI 模型的先天性局限,光靠模型本身的改进是不可能完全解决的。在这种情况下,我们需要充分利用模型之外的能力来补充、改进和强化这些大模型的能力。像智能体 (Agents) 这样机制提供这样的一种可行性。

特别是建立在语言或多模态的生成式 AI模型提供的上下文提示学习模式以及理解、推理和规划能力基础上,智能体的加持可以为应用系统提供的天然反馈闭环来实现持续学习和自我改进的能力,使得基于生成式AI大模型的智能体可以解决复杂问题、对环境交互行动,纠正可能的错误、并从经验中持续学习。

本文转载自 MoPaaS魔泊云​,作者:鲁为民

收藏
回复
举报
回复
相关推荐