
别再“炼丹”了!TML新研究或将终结AI训练“玄学”
2025年,人工智能领域的竞争进入了一个新的维度。不再仅仅是模型参数规模的比拼,一场围绕顶尖人才和底层技术创新的竞赛已然拉开帷幕。在这场变革的中心,一家名为Thinking Machines Lab(TML)的新兴公司,以其星光熠熠的创始阵容和创纪录的融资规模,迅速成为全球科技界瞩目的焦点。本文将深度解析这支“AI梦之队”的构成,并拆解其首个重磅研究成果“模块流形”背后的巨大技术野心。
AI行业的“复仇者联盟”
TML的创始团队,几乎囊括了近年来推动AI大模型发展的半壁江山。其核心成员大多来自OpenAI、Google Brain等世界顶级AI实验室,履历堪称辉煌。
创始人米拉·穆拉蒂,此前在OpenAI担任首席技术官,领导了ChatGPT、DALL-E和GPT-4o等关键项目的研发。首席科学家John Schulman,是OpenAI的联合创始人,其开发的PPO算法是当前强化学习领域应用最广泛的基石之一。首席技术官Barret Zoph,曾是OpenAI的研究副总裁和Google Brain的科学家。此外,团队还包括了GPT-3、GPT-4等模型背后的关键人物Bob McGrew,以及前OpenAI AI安全系统负责人翁荔(Lilian Weng)等。
这样一支星光熠熠的团队,自然获得了资本市场的疯狂追捧。在尚未发布任何产品的情况下,TML便完成了高达20亿美元的种子轮融资,由a16z领投,NVIDIA、AMD等行业巨头跟投,公司估值已超过100亿美元。这背后,反映出在当前的AI竞赛中,顶尖人才的价值被提到了前所未有的高度。
从“救火式”修正到“预防式”约束
TML的宏大愿景,需要有颠覆性的技术来支撑。其于2025年9月26日发布的“模块流形”研究,正是其技术野心的展露。这项研究直指当前所有大模型训练过程中都面临的一个核心痛点——数值稳定性。
在训练一个拥有数千亿参数的神经网络时,一个巨大的挑战是如何保持其内部数据处于一个“健康”的状态。如果这些数值变得过大或过小,就会导致训练过程崩溃。过去,研究者们发明了各种技术,如Layer Norm等,来对这些数值进行“救火式”的修正。
而“模块流形”提出了一种全新的、更根本的解决思路。可以这样理解:传统方法好比让一个不受约束的物体自由落体,在它快要撞到地面时再用各种缓冲垫去接住它;而“模块流形”则像是预先为这个物体铺设了一条光滑、安全的轨道,让它从一开始就在一个可控的范围内运动。
其核心思想,是通过约束优化,在一开始就将神经网络中的权重张量(可以理解为模型参数的一种组织形式)限制在一个被称为“子流形”的特定数学空间内。这样做的好处是,参数从一开始就被“关”在了一个健康的、不会出现极端数值的范围内进行优化,从而让整个训练过程变得更稳定、更具可解释性。
“流形Muon”的优越表现
为了验证这一理念,TML的研究人员设计了一款名为“流形Muon”的新型优化器。优化器是深度学习中指导模型如何学习的算法。
“流形Muon”将神经网络中的权重矩阵,约束在一个名为Stiefel流形的特殊空间中。在这个空间里,所有矩阵的奇异值(可以理解为矩阵对数据进行拉伸或压缩的程度)都被严格限制为1。这意味着,无论模型如何更新,其权重矩阵对数据的影响始终保持在一个稳定、可控的范围内。
研究团队在CIFAR-10这个经典的图像分类数据集上进行了实验。结果显示,使用“流形Muon”优化器训练的小型神经网络,无论是在训练过程的稳定性,还是在最终的测试准确性上,均优于目前被广泛使用的AdamW优化器。
重构AI训练的底层范式
“流形Muon”的成功,仅仅是“模块流形”理论的一个初步实践。TML的真正野心,是建立一套能够指导整个神经网络、跨越不同层级进行学习率分配的抽象机制。
行业趋势显示,AI的竞争正从追求模型规模的“更大”,转向探索基础理论的“更优”。TML这项研究的潜在行业影响是深远的:如果“模块流形”范式能够成功应用于大规模模型,它将有望从根本上提升大模型训练的稳定性和效率,降低对“炼丹”式调参的依赖,并可能为低精度训练等前沿领域开辟新的路径。
Thinking Machines Lab的横空出世,以及其“模块流形”研究的发布,清晰地传递出一个信号:AI领域的下一场革命,可能发生在最底层的数学原理和优化算法之中。这支由顶尖大脑组成的“AI梦之队”,能否凭借其在基础理论上的颠覆性创新,开辟出一条通往通用人工智能的全新路径,全世界都在拭目以待。
