AI的未来:Bill Dally与Yann LeCun谈计算驱动与世界模型的突破

发布于 2025-3-31 01:31
浏览
0收藏
  • ​题目:Frontiers of AI and Computing: A Conversation With Yann LeCun and Bill Dally
  • 谈话人:

    Bill Dally, Chief Scientist and SVP of Research, NVIDIA

     Yann LeCun, Chief AI Scientist at Meta, Professor at New York University

  • 时间:March 2025 (GTC 2025)

AI的未来:Bill Dally与Yann LeCun谈计算驱动与世界模型的突破-AI.x社区

核心观点

1. AI发展方向

Bill Dally 

  • AI在过去十年取得显著进展,尤其得益于计算能力的提升,如GPU性能从Kepler到Blackwell增长5000至10000倍。
  • AI未来需关注训练与推理的权衡,强大模型需更多训练资源,较弱模型可通过多次推理增强能力。

Yann LeCun 

  • LLM已是上一代技术,当前仅在产业界外围调整,缺乏突破性潜力。
  • AI应聚焦四大方向:理解物理世界、实现持久记忆、提升推理能力、增强规划能力,这些是未来五年的研究重点。
  • AGI短期实现(几年内)是胡说,真正的人类水平智能可能需十年,需新范式而非仅扩展LLM。

2. 世界模型

Yann LeCun 

  • 世界模型是人类理解物理世界的核心,婴儿在数月内通过观察形成,AI需类似能力。
  • LLM基于离散令牌预测,无法有效处理高维连续数据(如视频),像素级预测浪费资源且失败。
  • 联合嵌入预测架构(JEPA)是解决方案,通过编码器生成抽象表示,在潜在空间预测,避免细节不可预测性。
  • JEPA能从视频中学习物理可能性,如判断物体行为是否符合现实,已在小规模验证(如V-JEPA)。

3. 推理与规划

Yann LeCun 

  • 当前LLM的推理方式(生成大量令牌序列并筛选)效率低下,类似随机写程序后测试,无望实现复杂任务。
  • 人类和动物在抽象心理空间推理和规划,不依赖语言或令牌,AI需模仿此模式。
  • JEPA可实现给定状态和行动预测下一状态,支持零样本任务规划,三到五年内有望小规模成功。
  • 推理分System 1(自动反应)和System 2(深思规划),当前AI擅长System 1,需新架构突破System 2。

4. AI应用与社会影响

Bill Dally 

  • AI已改善人类生活,如医疗和驾驶领域,需关注部署时的可靠性与准确性。
  • AI有负面潜力(如深度伪造),需平衡利弊,尤其在高风险应用中需近乎完美。

Yann LeCun 

  • AI在医学(如影像筛查、MRI加速)和自动驾驶(减少40%碰撞)有显著应用,短期影响巨大。
  • 部署AI系统比预期难,尤其高可靠性场景(如自动驾驶),需整合现有系统且成本高。
  • AI负面应用(如深度伪造)未显著增加恶意内容,公众适应力强,灾难场景不可信。
  • Galactica受批判而ChatGPT受欢迎表明公众接受度取决于用途而非技术本身,更好AI是解决误用的关键。

5. 硬件需求

Bill Dally 

  • GPU能力提升(5000-10000倍)及扩展技术支持AI进步,未来需持续增强硬件以满足新模型需求。
  • 神经形态硬件和处理器内存一体(PIM)可能在边缘计算中有前景,如智能眼镜的低功耗处理。

Yann LeCun 

  • JEPA等新模型运行时计算成本高,需强大硬件支持,视频处理(如V-JEPA)尤甚。
  • 当前数字CMOS占主导,神经形态硬件短期无优势,因无法复用硬件且跨芯片通信效率低。
  • 生物启发(如视网膜压缩)表明传感器内处理可降低功耗,PIM在边缘设备(如智能眼镜)有潜力。
  • 量子计算仅适合量子系统模拟,超导和光学技术短期内难以突破现有硬件局限。

6. 开源AI

Bill Dally 

  • LLaMA的开放权重推动生态发展,用户下载超10亿次,显示开源AI的广泛应用潜力。

Yann LeCun 

  • 开源AI(如LLaMA)加速创新,全球协作证明好点子无地域限制。
  • 未来AI需多样化,支持所有语言和文化,单一公司无法实现,需开源平台支撑。
  • 分布式训练是未来趋势,各地贡献数据但保留所有权,构建共识基础模型,专有平台将消失。
  • Meta通过开源(如PyTorch、LLaMA)获益,因核心业务非模型本身,生态繁荣不构成威胁。

目录

一、AI研究的新方向:超越大语言模型

二、构建世界模型:从令牌到抽象表示

三、超越生成式推理:抽象空间的规划

四、AI的实际应用:从医学到自动驾驶

五、开源AI:全球协作与多样化的未来

六、AI的计算需求:从GPU到新兴技术

一、AI研究的新方向:超越大语言模型

Bill Dally:大家好!我们将就AI相关话题进行一次简短对话,希望大家会觉得有趣。Yann,过去一年AI领域发生了许多引人注目的进展。在你看来,哪一项是最激动人心的?

Yann LeCun: 发展太多,难以一一列举,但我可以提到一点,可能让一些人感到意外。我对LLM不再感兴趣。它们已经是上一代技术,目前掌握在产业界的产品团队手中,更多是在小幅改进,追求更多数据、更大算力、生成合成数据。我认为有四个更有趣的问题:如何让机器理解物理世界——Jensen今天上午在主题演讲中提到过;如何让它们具备持久记忆,这一点很少有人讨论;最后两个是如何实现推理和规划。当然,有人尝试让LLM具备推理能力,但在我看来,这种方式对推理的理解过于简单化。我相信有更好的方法。我关注的是未来五年可能会让科技界兴奋的方向,尽管现在它们只是学术论文中的晦涩内容。

二、构建世界模型:从令牌到抽象表示

Bill Dally: 如果不是LLM来推理物理世界、保持持久记忆并进行规划,那会是什么?底层模型会是什么?

Yann LeCun: 许多人在研究世界模型。什么是世界模型?我们大脑中都有世界模型,它让我们能够操控思维。我们对当前世界有模型。如果我从顶部推这个瓶子,它可能会翻倒;从底部推,它会滑动;用力过猛,它可能会爆开。我们在生命最初几个月就获得了物理世界模型,这让我们能应对现实世界。处理现实世界比处理语言要难得多。我认为,真正能应对现实世界的系统需要完全不同于当前架构的设计。LLM预测的是令牌(token),但令牌可以是任何东西。自动驾驶模型使用传感器输入的令牌,生成驾驶指令的令牌,在某种程度上,它在推理物理世界,至少是判断哪里安全驾驶、不会撞上电线杆。为什么令牌不是表示物理世界的正确方式?

Yann LeCun: 令牌是离散的。我们讨论令牌时,通常指一个有限的可能性集合。在典型LLM中,可能令牌数量大约是10万级别。当你训练系统预测令牌时,无法让它精确预测文本序列中的下一个令牌。但你可以生成词典中所有可能令牌的概率分布——一个10万维的向量,每个值在0到1之间,总和为1。这我们知道如何实现。但对于视频或高维连续的自然数据,我们不知道如何做到。试图通过训练系统在像素级预测视频来理解世界或构建心智模型的每一次尝试都失败了。即使是训练神经网络学习图像的良好表示,所有通过从损坏或变换版本重建图像的技术都失败了。不是完全失败——它们有些效果,但远不如我们称为联合嵌入(joint embedding)的替代架构。这些架构不试图在像素级重建,而是学习图像、视频或自然信号的抽象表示,在这个抽象表示空间中进行预测。我常举的例子是,如果我拍摄这个房间的视频,移动镜头到这里停下,让系统预测视频后续,它可能会预测这是一个房间,有人坐在里面,等等。但它无法预测你们每个人的具体长相。这从视频的初始片段是完全不可预测的。世界中有很多不可预测的东西。如果训练系统在像素级预测,它会把所有资源浪费在尝试发明无法预测的细节上。这是资源的彻底浪费。我20年来尝试通过自监督学习预测视频训练系统,都不起作用。只有在表示层级上才有效。这意味着这些架构不是生成式的。

Bill Dally: 你是说变换器(transformer)没有这种能力——但有人用视觉变换器取得了不错结果。

Yann LeCun: 我不是这个意思,因为变换器可以用在这些架构中。我说的是联合嵌入预测架构(joint embedding predictive architecture)。拿一段视频或图像,甚至文本,通过编码器生成一个表示;然后拿后续文本、视频或图像的变换版本,也通过编码器生成表示,在这个表示空间中进行预测,而不是在输入空间。你可以用相同的训练方法填补空白,但在潜在空间而不是原始表示中进行。

Bill Dally: 确实如此。难点在于,如果不小心、不使用巧妙技术,系统会坍塌——它会忽略输入,仅生成一个恒定的、不具信息量的表示。

三、超越生成式推理:抽象空间的规划

Yann LeCun: 五六年前,我们没有任何技术防止这种情况发生。现在,如果你想用它构建一个代理系统或能推理和规划的系统,你需要一个预测器。当它观察一段视频时,能大致了解世界当前状态,然后预测如果我采取某个想象中的行动,下一个状态是什么。你需要一个预测器,给定世界状态和想象的行动,能预测下一状态。如果有了这样的系统,你就能规划一系列行动达到特定目标。这是我们所有人进行规划和推理的真正方式——不在令牌空间中。举个简单例子。现在有很多所谓的代理推理系统,它们的运作方式是生成大量令牌序列,用不同方法随机生成,然后用另一个神经网络从所有序列中选出最佳的。这就像不会写程序却要写程序——随机写代码,测试所有代码,保留给出正确答案的那个。这是完全无望的。

Bill Dally: 有超优化(super-optimization)的论文建议这样做。对于短程序。

Yann LeCun: 对于短程序当然可以——但随着代码行数增加呈指数增长,很快就无望了。

Bill Dally: 许多人说通用AI(AGI)——或者你说的AMI——即将来临。你的看法是什么?你认为它什么时候到来?有哪些差距?

Yann LeCun: 我不喜欢“AGI”这个词,因为人们用它指代具备人类水平智能的系统,但人类智能是高度特化的。称它为“通用”是个误解。我更喜欢“AMI”——我们读作“AMI”——意思是高级机器智能。只是个术语问题。我描述的这个概念——系统能学习世界的抽象心智模型并用于推理和规划——我认为三到五年内我们能在小规模上很好地掌握它。然后是扩展规模的问题,直到达到人类水平AI。历史上有过一代又一代AI研究者发现新范式,宣称“就是它——10年内,或5年内,我们会有人类水平智能,机器会在所有领域超过人类”。70年来一直如此,每10年一个浪潮。当前浪潮也是错的。认为只需扩展LLM规模或让它们生成数千令牌序列再选出好的,就能达到人类水平智能,甚至几年内——有人预测两年——在数据中心里创造一个天才国度,我认为是胡说。完全是胡说。当然,近期会有很多应用,系统可能达到博士水平。但整体智能上,我们还很远。我说“很远”,可能十年左右——不算太远。

四、AI的实际应用:从医学到自动驾驶

Bill Dally: AI已在许多方面改善人类生活,让生活更便利。你认为AI哪个应用最具吸引力、最有益?

Yann LeCun: 有显而易见的例子。我认为AI对科学和医学的影响可能比我们现在想象的更大,尽管已经很显著。不只是在蛋白质折叠、药物设计等研究领域——理解生命机制——还有短期影响。现在在美国,你做医学影像检查,经常涉及AI。乳腺X光片可能用深度学习系统预筛查肿瘤。做MRI,待在机器里的时间减少了四分之一,因为现在可以用更少数据恢复高分辨率图像。很多短期效果。当然,我们的车——英伟达是主要供应商之一——现在大多配备驾驶辅助或自动紧急制动系统。在欧洲,这几年来是强制装备。这些系统能减少40%的碰撞。它们救命。这是巨大的应用。这不是生成式AI——不是LLM——是感知系统,当然还有一点控制。显然,现有或未来几年的LLM在工业、服务等领域有很多应用。但我们也要考虑局限性——部署系统达到预期准确性和可靠性比多数人想的难。自动驾驶就是如此。达到第5级自动驾驶的时间表一直在推迟——我想未来也是这样。AI失败的地方通常不在基础技术或炫酷演示,而是在实际部署、应用、确保可靠并与现有系统整合时。这会变得困难、昂贵,耗时超预期。像自动驾驶这种必须时刻正确的应用——否则可能有人受伤或死亡——准确性需近乎完美。但很多应用只要大多数时候正确就很有益——如某些医学应用,医生会复查,或娱乐、教育等领域,你希望利大于弊,错误后果不严重。

Bill Dally: 确实如此。对大多数系统,最有用的那些是提升人们生产力或创造力的。

Yann LeCun: 像编码助手帮助他们。在医学、艺术、文本生成中都如此——AI不是取代人,而是给他们强大工具。

Bill Dally: 未来可能会取代,但——

Yann LeCun: 我不认为人们会接受。未来AI系统,包括超智能、超人类系统,我们的关系是我们是它们的老板。我们会有一个超智能虚拟团队为我们工作。我不知道你怎么样,但我喜欢和比我聪明的人共事。

Bill Dally: 我也是。世上最棒的事。正面是AI能多方面造福人类,反面是有人会用它制造深度伪造、假新闻,若应用不当可能引发情感困扰。你对AI使用最大的担忧是什么?如何缓解?

Yann LeCun: Meta很熟悉的一件事是用AI对抗攻击,无论攻击是否来自AI。可能让人意外的是,尽管LLM和深度伪造技术已存在多年,我们负责检测和移除这类攻击的同事说,我们没看到社交网络上生成内容大幅增加——至少不是以恶意方式发布,通常会标注为合成内容。我们没看到三四年前警告的那种灾难场景——“这会摧毁所有信息”。有个有趣的故事。2022年秋,我的Meta同事,一个小团队,训练了一个涵盖全部科学文献的LLM——他们能拿到所有技术论文。叫Galactica,公开上线,附带描述训练过程的长论文、开源代码和可玩的演示系统。Twitter上对此泼了一盆冷水。有人说,“这太可怕了,会害死我们,毁掉科学交流系统——现在任何傻瓜都能写出看似科学的论文,比如吃碎玻璃的好处。”负面意见如海啸般涌来,我那可怜的五人小团队夜不能寐,他们撤下了演示。开源代码和论文留下了——演示没了。我们得出结论:世界还没准备好这种技术,没人感兴趣。三周后,ChatGPT出来了,像是救世主再临。我们面面相觑,说:“怎么回事?”我们无法理解公众对此的热情,和之前反应的对比。

Bill Dally: ChatGPT的讨论不是要写学术论文或做科学——它是能对话、回答任何问题的东西。试图更通用化。在某种程度上,对更多人更有用——或大致有用。

Yann LeCun: 有危险,肯定有各种滥用。但对抗滥用的对策是更好的AI。如我之前所说,有不可靠系统——解决方法是更好的AI系统,具备常识、推理能力,检查答案是否正确,评估自身答案可靠性——目前还做不到。但灾难场景——我不信。人们会适应。

五、开源AI:全球协作与多样化的未来

Bill Dally: 我认为AI大多有益,尽管有点坏处。作为大西洋两岸都有家的人,你有全球视角。你认为AI未来创新会从哪来?

Yann LeCun: 可以来自任何地方。聪明人无处不在。没人垄断好点子。有些人有极大优越感,以为自己不需交流就能想出所有好点子。我作为科学家,经验告诉我不是这样。好点子来自多人互动、思想交流,过去十年还有代码交换。这是我强烈支持开源AI平台的原因之一,Meta也部分采纳了这哲学。我们没垄断好点子——再聪明也不行。DeepSeek的故事表明好点子可来自任何地方。中国有很多优秀科学家。一个故事很多人该知道:过去10年科学界引用最多的论文是什么——2015年发表,刚好10年前,关于一种叫ResNet(残差网络)的神经网络架构,来自北京微软研究院,一群中国科学家完成。领衔作者是何恺明。一年后,他加入加州Meta的FAIR,待了八年,最近去了MIT。

Bill Dally: 去了MIT,没错。

Yann LeCun: 这说明全球有很多优秀科学家。点子可从各地冒出。但要把点子付诸实践,需大基础设施、大量计算——得给朋友、同事很多钱买硬件。但开放的知识社区让进步更快,因为有人在这儿想到半个好点子,别人那儿想到另一半,若交流就成了。若都封闭孤立,进步就不发生。

Bill Dally: 没错。还有一点——创新点子要涌现——作为英伟达首席科学家,你明白——得给人们长绳子。得让他们创新,别每三六个月压他们出成果。

Yann LeCun: DeepSeek是这样,LLaMA也是。不广为人知的故事是,2022年FAIR有几个LLM项目——一个资源多,高层支持,另一个是巴黎十几人的小海盗项目,他们因某种需要自己建LLM。这成了LLaMA。大项目——你没听说过——停了。你不需所有支持也能有好点子。若管理层隔离你、放手,你能想出比按计划创新更好的点子。这十几人做了LLaMA 1。当然,后来决定以此为平台,而非另一项目,建了团队做LLaMA 2,开源后在领域掀起革命。然后是LLaMA 3——截至昨天,LLaMA下载超10亿次。我觉得不可思议。我猜包括你们很多人,但那些人是谁?你该知道,他们得买英伟达硬件跑这些。

Bill Dally: 感谢你帮我们卖GPU。谈谈开源。LLaMA很创新,是顶尖LLM,至少开放权重,人们可下载自己运行。利弊是什么?公司投入巨资开发、训练、微调模型,然后免费放出。好处是什么,坏处呢?

Yann LeCun: 若你是靠服务直接赚钱的公司,有坏处。若那是你的唯一业务,公开所有秘密可能不利。但若你是Meta——或某种程度上的Google——收入来自别处:Meta是广告,Google有多种来源,未来或许还有其他。短期收入不重要——关键是:你能为想建的产品开发所需功能吗?能让全球最多聪明人贡献吗?对全世界——若其他公司用LLaMA做其他事,不伤Meta——他们没社交网络可建在上面。对Google威胁更大,你能用它建搜索引擎——这可能是他们对此态度不积极的原因。我们看到的效果——先是PyTorch对社区的影响,然后是LLaMA 2——启动了整个初创生态。现在大行业也如此,人们有时用专有API原型AI系统,部署时最划算的方式是用LLaMA,因为可本地运行——或其他开源模型。但哲学上,想有开源平台最重要的原因是,很快,我们与数字世界每一次互动都将由AI系统调解。我戴着Ray-Ban Meta智能眼镜——可通过它与Meta AI对话,问任何问题。我们不认为人们想要单一助手,或这些助手只来自美国西海岸或中国的几家公司。我们需极其多样的助手——说世界所有语言,懂所有文化、价值观、兴趣中心,有不同偏见、政治观点等等。我们需多样助手,就像需多样媒体——否则信息都来自同一来源,对民主等不利。我们需一个任何人可用来建助手的平台——多样助手群体——现在只能通过开源平台做到。未来更重要,若要基础模型说世界所有语言等,没单一实体能独自做到。谁会收集全球所有语言数据,交给OpenAI、Meta、Google或Anthropic?没人——他们想留数据。世界各地会想为全球基础模型贡献数据,但不交出数据。可能为训练全球模型出力——这是未来模式。基础模型将开源,以分布式方式训练,全球各地数据中心访问不同数据子集,训练共识模型。这使开源平台不可避免,专有平台会消失。

Bill Dally: 这对语言多样性和应用也有意义。公司可下载LLaMA,用不愿上传的专有数据微调。

Yann LeCun: 这正在发生。AI初创的商业模式大多如此——为垂直应用建专用系统。

Bill Dally: 在Jensen的主题演讲中,他提到用代理LLM做婚礼规划——决定谁坐哪桌——这是训练和推理投入权衡的好例子。一方面,你可有强大模型,训练耗费巨资;另一方面,建较弱模型,多次运行推理。你认为建强大模型时,训练时间和推理时间的权衡是什么?最佳点在哪?

Yann LeCun: Jensen完全正确,能推理的系统最终更有威力。我不同意当前LLM增强推理能力的方式是正确途径——你说它有效,但不是正确方式。

Bill Dally: 不是正确方式。

Yann LeCun: 我们推理、思考时,在与语言无关的抽象心理状态中进行。你不是踢出令牌——你想在潜在空间、抽象空间中推理。若我说,想象一个立方体浮在你面前,绕垂直轴旋转90度,你能在脑海中做到——与语言无关。猫也能做到——我们无法用语言向猫描述问题,但猫规划跳上家具的轨迹时,做的事比这复杂。不关语言——肯定不在令牌空间,那是动作。在抽象心理空间中。这是未来几年挑战——找出允许这种事的新架构。这是我在研究的——会有新模型让我们在抽象空间推理吗?

Yann LeCun: 我们叫它JEPA,或JEPA世界模型。我和同事过去几年发表了论文——对此的初步步骤。JEPA是联合嵌入预测架构。这些世界模型学习抽象表示,能操控这些表示,或许推理并生成行动序列达到特定目标。这是未来。我三年前写了篇长论文解释这可能如何运作。

六、AI的计算需求:从GPU到新兴技术

Bill Dally: 运行这些模型需优秀硬件。过去十年,GPU能力在AI模型训练和推理上提升了5000到10000倍——从Kepler到Blackwell——今天看到还有更多,扩展和升级提供了额外能力。你认为未来会有什么?什么能让我们建你的JEPA和其他更强模型?

Yann LeCun: 继续努力,因为我们需要能拿到的一切算力。这抽象空间推理想法在运行时计算成本高,与我们熟悉的东西有关。心理学家谈System 1和System 2。System 1是你不怎么思考就能完成的任务——你习惯了,不用多想。若你是老司机,可不怎么思考开车——即使没驾驶辅助。可同时聊天等。但若你首次开车,头几小时在方向盘后,得专注你在做什么。规划各种灾难场景,想象各种事。这是System 2——你调动整个前额叶皮层,你的世界模型——内部世界模型——弄清会发生什么,规划行动让好事发生。熟悉后,你可用System 1自动完成。你用世界模型开始,能完成任务——即使没遇过的任务,零样本——不需训练解决那任务——仅凭对世界的理解和规划能力完成。这是当前系统缺失的。若多次完成那任务,最终编译成所谓策略——反应系统,让你不规划就完成。这推理是System 2。自动、无意识、反应性策略是System 1。当前系统能做System 1,正朝System 2迈进,但我认为System 2需不同架构。

Bill Dally: 你认为会是你的JEPA吗?

Yann LeCun: 若要系统理解物理世界,不会是生成式架构。物理世界比语言难理解得多。我们视语言为人类智力巅峰,但其实语言简单,因为它是离散的——因是通信机制,需离散,否则不抗噪。你现在听不懂我说什么。它因此简单,但现实世界复杂得多。我过去说过:当前LLM训练用约30万亿令牌。令牌约3字节——0.9×10^13字节——约10^14字节。我们任一人读完需超40万年,因为那是网上所有文本总量。心理学家说,四岁児醒着共1.6万小时,我们视觉皮层通过视神经每秒接收约2兆字节。1.6万小时乘3600——约10^14字节,四年通过视觉。你看到的数据量等于40万年读的文本。这说明仅靠文本训练永远达不到AGI——无论你怎么定义。

Bill Dally: 回到硬件,脉冲系统(spiking systems)有不少进展,倡导者看生物系统类比,建议神经形态硬件有作用。你认为神经形态硬件会在AI中补足或替代GPU吗?

Yann LeCun: 短期不会。事后给我20块?

Bill Dally: 什么?

Yann LeCun: 我得讲个故事。1988年我进贝尔实验室,我那组专注神经网络的模拟硬件,建了几代完全模拟神经网,然后混模拟-数字,到90年代中期全数字。那时人们对神经网失去兴趣,就没意义了。像这样的奇异原理问题在于,当前数字CMOS处于极深局部极小值,替代技术——及巨额投资——需很久才能赶上。甚至不清楚原理上是否有优势。像模拟或脉冲神经元、脉冲神经网——可能有些固有优势,但它们让硬件复用难。我们现在每块硬件太大太快,你得复用同一硬件——多路复用——计算不同模型。

Bill Dally: 你的神经网?

Yann LeCun: 若用模拟硬件,不能多路复用——你得为虚拟神经网每个神经元配一个物理神经元。意味着单芯片装不下像样大小的神经网——得用多芯片。一旦做到会非常快,但效率不高,因为需跨芯片通信,内存变复杂。最终,你得数字通信——那是唯一高效、抗噪的方式。脑子——有趣信息——多数动物脑中,神经元通过脉冲通信。脉冲是二进制信号——是数字——不是模拟。神经元计算可能是模拟,但神经元间通信是数字——除了微小动物。如 C. elegans——1毫米长蠕虫——有302个神经元。不脉冲——不需因不需远距离通信——那尺度可用模拟通信。这说明即使想用模拟计算这类奇异技术,也得某种方式用数字通信,至少为内存。不清楚——我多次算过。你比我知道得多,但我短期看不到这发生。边缘计算可能有些角落——若想要超便宜微控制器跑吸尘器或割草机的感知系统——若能单芯片装下,用相变内存存权重,也许有些人真在建这些。

Bill Dally: 这涉及所谓PIM——处理器内存一体——技术,模拟和数字都有。你认为它们有作用吗?

Yann LeCun: 绝对有。我同事对此很感兴趣,因他们想建智能眼镜后续产品。你想要视觉处理随时进行——现在因功耗不可能。像图像传感器——不能在这种眼镜里一直开,几分钟电池就没了。一潜在解法是传感器上直接处理——不需把数据移出芯片,那才耗能。数据移动耗能——不是计算本身。这方面有不少工作,但还没到那。

Bill Dally: 你认为这是有前景的方向?

Yann LeCun: 我认为是。生物已解决这问题。我们视网膜有约6000万光感器,前有四层透明神经元处理信号,压缩到100万视神经纤维到视觉皮层。有压缩、特征提取——各种处理——从视觉系统提取最有用信息。

Bill Dally: 其他新兴技术呢?你认为量子、超导逻辑或其他会在AI处理能力上给我们大步前进吗?

Yann LeCun: 超导——也许。我了解不够多不好说。光学很令人失望。我记得80年代听光学实现神经网的演讲很惊叹——从未实现。技术在进化——也许会变。我认为那成本多——像模拟——在与数字系统接口转换时丢了。量子——我极怀疑量子计算。我看到的唯一中期应用是模拟量子系统——如量子化学——也许。其他我很怀疑。

Bill Dally: 你谈到建AI能像幼动物从观察学习。这对硬件有何需求?你认为硬件需如何发展支持这?你能给我们多少?

Yann LeCun: 是你愿买多少。买越多省越多——赚越多,如今天所闻?

Bill Dally: 没错。

Yann LeCun: 不会便宜,因视频——我讲个实验,我同事一年前做的。有种自监督学习技术用重建学图像表示——我说过这不行。项目叫MAE——掩码自编码器。是自编码器——去噪自编码器——很像用的方式。拿图像,破坏掉部分——其实是大块——训练巨型神经网重建完整图像,在像素级——或令牌级。然后用内部表示作为下游任务输入,监督训练——物体识别之类。效果还行。得煮沸小池塘冷却液冷GPU集群来做。不如联合嵌入架构好——你可能听过DINO、DINOv2等。那些是联合嵌入架构——效果更好,训练更便宜。

Bill Dally: 联合嵌入是你有两个输入类的潜在空间?

Yann LeCun: 没错。不是把一切转为一个令牌——不是拿图像和损坏或变换版,从损坏或变换版重建全图像,而是拿全图像和损坏/变换版,两者都通过编码器,然后链接——从部分可见、损坏版的表示训练全图像表示。这是联合嵌入预测架构。效果更好,更便宜。MAE团队说,“图像行——试视频。”得把视频令牌化——视频转为16×16补丁——短视频也有很多补丁。训练巨型神经网重建缺失补丁——也许预测未来视频。得煮沸小湖——不是池塘——基本失败。项目停了。现在替代是V-JEPA项目——接近第二版——是联合嵌入预测架构。在表示层级预测视频——效果很好。第一版训在短视频,16帧,从部分掩码版预测全视频表示。这系统能判断视频是否物理可能——至少在限制案例中。给二元输出——“可行,不可行”——或——

Bill Dally: 更简单——测系统预测误差。拿视频16帧滑动窗口,看能否预测下几帧,测误差。视频有怪事——如物体消失、变形状或什么——或突然出现、不遵物理——仅观视频就物理真实?

Yann LeCun: 训在自然视频,测在合成视频,有怪事发生。若训在怪事视频,那成正常——不会觉奇怪。

Bill Dally: 没错。

Yann LeCun: 不那样做。这有点像婴儿需时间学直觉物理——物体无支撑会掉。重力效应——婴儿9个月左右学会。给五六个月婴儿看物体浮在空中——不惊讶——九十个月看,大眼瞪,你能测——心理学家有测注意方法。意指婴儿内部世界模型——心智模型——被违反。婴儿见她认为不可能的事——不符预期。她得看它修正内部世界模型——“也许该学这个”。

Bill Dally: 你谈到联合嵌入空间的推理和规划——我们需什么到那?模型和硬件的瓶颈是什么?

Yann LeCun: 多是让它生效。需好配方——像以前人们找到训简单卷积网的好配方。直到2000年代末,Jeff Hinton告诉大家,“用反向传播训深网很难——Yann能用ConvNets,他是世上唯一能的”——当时真但不真。不那么难,但得弄清很多技巧——工程或直觉技巧——用哪非线性。ResNet这想法——10年引用25万次,科学最引用论文——简单想法。每层有跳跃连接——默认深神经网一层算恒等函数——神经网做的是偏离——简单想法——但让训—

Bill Dally: 避免反向丢梯度。

Yann LeCun: 没错。让训百层神经网成可能。之前,人们用技巧——拉中间东西,有损失函数——因不能全程反向传播。

Bill Dally: 一层死——网就死——得重启训练。

Yann LeCun: 人们很快放弃,因没全技巧。找到好配方前——残差连接、Adam优化器、归一化——我们有论文示变换器不需归一化——这类东西——没全配方和技巧前,没东西行。同NLP——自然语言处理系统——2010年代中,基于去噪自编码器——如BERT型——拿文本,破坏,训神经网恢复缺词——最终被GPT式架构取代——训全系统——作自编码器,但不破坏输入,因架构是因果的。配方——证明极成功扩展。我们得为JEPA架构找个好配方,能同样扩展——这缺了。

Bill Dally: 我们前有红灯闪。结束前有最后想法留给观众吗?

Yann LeCun: 我想强化之前观点。AI进展——朝人类水平AI、高级机器智能或AGI,随你叫它什么——需所有人贡献。不会从某单一实体秘密研发出来——不会发生。不是事件——是沿途连续进展。人类不会在这发生一小时内灭亡,因不是事件。需全球各地贡献——开放研究,基于开源平台。需大量训练——需更便宜硬件——你得降价。跟Jensen说。

Bill Dally: 我们会有未来,高多样AI助手助我们日常生活——随时伴我们,通过智能眼镜或其他设备——我们是它们老板。它们为我们工作——像我们都成经理。

Yann LeCun: 那未来糟透了。

本文转载自Andy730,作者:常华Andy

收藏
回复
举报
回复
相关推荐