Agentic新SOTA诞生!美团开源5600亿参数MoE大模型的效率革命 精华

发布于 2025-9-4 06:55
浏览
1收藏

DeepSeek-V3、Qwen 3和Kimi-K2等模型已经证明,扩大模型规模和计算资源是提升性能的有效途径。然而,随着模型规模的不断增长,计算效率和资源利用成为了亟待解决的关键问题。今天,我们将深入解析美团LongCat团队最新发布的LongCat-Flash模型,这个拥有5600亿参数的Mixture-of-Experts (MoE)语言模型如何在保证强大性能的同时,实现计算效率的突破性提升。

技术背景:大型语言模型的效率挑战

近年来,大型语言模型的发展呈现出"越大越好"的趋势,但随之而来的是巨大的计算资源消耗和推理成本问题。传统的大型模型在处理每个token时都会激活全部参数,这导致了严重的计算资源浪费。研究表明,并非所有token都需要相同的计算资源——简单的token可能只需要少量计算就能准确预测,而复杂的token则需要更多资源。

此外,随着模型规模的扩大,通信开销成为了MoE模型扩展的主要瓶颈。在传统的执行范式中,专家并行性强制执行顺序工作流:必须先将token路由到指定的专家,然后才能开始计算。这种通信延迟成为瓶颈,导致设备利用率低下和整体系统吞吐量受限。

面对这些挑战,美团LongCat团队提出了LongCat-Flash模型,通过创新的架构设计和训练策略,实现了计算效率和模型性能的双重突破。

LongCat-Flash模型架构详解

LongCat-Flash采用了创新的MoE架构,包含两大核心创新:Zero-computation Experts(零计算专家)和Shortcut-connected MoE(快捷连接MoE)。

Zero-computation Experts:动态计算资源分配

Zero-computation Experts是LongCat-Flash的核心创新之一,它实现了根据token的重要性动态分配计算资源的机制。具体来说,LongCat-Flash在N个标准FFN专家的基础上,额外增加了Z个零计算专家。这些零计算专家简单地返回输入xt作为输出,不引入额外的计算成本。

Agentic新SOTA诞生!美团开源5600亿参数MoE大模型的效率革命-AI.x社区

LongCat-Flash采用的架构图

如图2所示,每个层采用Shortcut-connected Mixture of Experts (ScMoE)与零计算专家。ScMoE显著扩展了计算-通信窗口,提高了训练和推理效率。零计算专家实现了基于上下文重要性的动态计算,提高了计算资源利用效率。

MoE模块的数学表达如下:

Agentic新SOTA诞生!美团开源5600亿参数MoE大模型的效率革命-AI.x社区

其中,R表示softmax路由器,bi是第i个专家对应的专家偏置,K表示每个token选择的专家数量。

通过这种自适应分配机制,模型学会为具有更高上下文重要性的token动态分配更多计算资源,从而在相同计算容量下实现更优的性能。如图3a所示,在匹配计算预算下,带零计算专家的模型(橙色)相比不带零计算专家的模型(蓝色)实现了持续的损失降低。

Agentic新SOTA诞生!美团开源5600亿参数MoE大模型的效率革命-AI.x社区

图3:(a)验证损失曲线比较 (b)训练期间激活的FFN专家平均数量 (c)激活的FFN专家的标准差

计算预算控制

为了激励模型学习上下文相关的计算分配,LongCat-Flash采用了专家偏置机制,通过PID控制器动态调整路由分数。具体更新规则如下:

Agentic新SOTA诞生!美团开源5600亿参数MoE大模型的效率革命-AI.x社区

其中,µ表示偏置适应率,Tall表示全局批次中的token数量,Ti表示路由到第i个专家的token数量,Ke表示激活的FFN专家的期望数量,小于K。

这种机制确保了第i个专家的token分配收敛到其目标比例。如图3b所示,经过约200亿token的调整后,所有层中的平均专家数量收敛到期望值,波动小于1%。然而,如图3c所示,标准差保持在相对较高水平,表明模型在不同token之间分配了显著不同的计算资源。

负载平衡控制

为了确保FFN专家之间的负载平衡,LongCat-Flash引入了设备级负载平衡损失:

Agentic新SOTA诞生!美团开源5600亿参数MoE大模型的效率革命-AI.x社区

在损失中,我们将所有零计算专家分配到一个额外的组,并平均每组中的频率。通过调整fj的系数,我们确保当损失收敛时,FFN专家与零计算专家的比例接近Ke/(K-Ke)。

Shortcut-connected MoE:扩大计算-通信重叠窗口

Shortcut-connected MoE (ScMoE) 是LongCat-Flash的另一个核心创新,它解决了MoE模型扩展中的通信瓶颈问题。ScMoE引入了跨层快捷连接,重新排序了执行流水线。这一关键创新允许前一个块的密集FFN与当前MoE层的dispatch/combine通信并行执行,创造了比共享专家设计更 substantial的重叠窗口。

ScMoE架构的优势已在多个实验中得到验证。如图4所示,在四种不同的模型配置下,包括(a) 2.4B-16B与MLA,(b) 3B-20B与MHA,和(c) 15B-193B与GQA,我们的架构与不带ScMoE的基线的训练损失曲线几乎相同,确认这种重新排序的执行不会损害模型性能。

Agentic新SOTA诞生!美团开源5600亿参数MoE大模型的效率革命-AI.x社区

图4:四种不同模型配置下,基线模型(不带ScMoE)与其ScMoE增强对应物的训练损失曲线比较

ScMoE架构为大规模训练和高效推理都带来了实质性的系统级效率提升:

  • 大规模训练:扩展的重叠窗口允许前一个块的计算与MoE层中的dispatch和combine通信阶段完全并行,通过沿token维度将操作划分为细粒度的块来实现。
  • 高效推理:ScMoE实现了单批次重叠流水线,与DeepSeek-V3等领先模型相比,将理论每个输出令牌时间(TPOT)减少了近50%。此外,它允许并发执行不同的通信模式:密集FFN上的节点内张量并行通信(通过NVLink)可以与节点间专家并行通信(通过RDMA)完全重叠,从而最大化总网络利用率。

方差对齐设计:提升模型可扩展性

LongCat-Flash采用了方差对齐技术来解决模型扩展中的不稳定性问题。具体包括两个方面:

MLA的尺度校正

LongCat-Flash采用了改进的多头潜在注意力(MLA)机制,整合了尺度校正因子αq和αkv来解决非对称低秩分解中固有的方差不平衡问题。完整的数学表达式如下:

Agentic新SOTA诞生!美团开源5600亿参数MoE大模型的效率革命-AI.x社区

其中,ht ∈ Rdmodel是输入隐藏状态,每个头部i的最终查询和键通过连接内容部分(C)和旋转部分(R)形成。

αq和αkv的引入解决了查询/键向量分量之间的基本方差不匹配问题。在初始化时,它们的方差与其源维度成正比:σ²(qCt), σ²(qRt) ∝ dq和σ²(kCt) ∝ dkv。相比之下,旋转键分量kRt的方差与完整模型维度成正比:σ²(kRt) ∝ dmodel。当dq、dkv和dmodel变化时,这种维度差异导致初始化时的注意力分数不稳定,从而导致模型扩展时性能下降和不可预测。

解决方案是将低秩路径分量重新缩放,使其最终方差与参考尺度对齐,我们使用完整模型维度作为参考。这是通过将缩放因子定义为:

Agentic新SOTA诞生!美团开源5600亿参数MoE大模型的效率革命-AI.x社区

MLA的缩放因子

这种尺度不变的校正中和了方差不匹配,确保它们为注意力计算提供了良好条件。如图5a所示,我们的实验表明这种方法提高了模型性能。

Agentic新SOTA诞生!美团开源5600亿参数MoE大模型的效率革命-AI.x社区

图5:(a)在MLA上加入尺度校正因子显示在1B激活MOE模型上改进的收敛性(更低损失)(b)模型增长实验中6B激活MoE模型的验证损失曲线

专家初始化的方差补偿

LongCat-Flash采用了DeepSeek-MoE中的细粒度专家策略,将每个专家分割为m个更细粒度的专家,以增强组合灵活性和知识专业化。然而,我们观察到这种设计的性能对其他架构选择(例如,专家数量、top-k、m)敏感。

为了解决这个问题,我们提出了方差补偿机制,以抵消专家分割导致的初始化方差减少。该机制对专家的聚合输出应用缩放因子γ,公式如下:

Agentic新SOTA诞生!美团开源5600亿参数MoE大模型的效率革命-AI.x社区

其中,gi是mN个细粒度专家上的路由器输出,N表示分割前的专家总数。

公式(8)中的缩放因子γ通过量化两个主要的方差减少来源得出:

  1. 门控稀释:将每个原始N个专家分解为m个更细粒度的专家,使专家总数扩展到mN。这种扩展迫使softmax门控在更大的专家池中分配其概率质量,按比例降低单个门控值gi的大小。因此,输出方差大约减少了m倍。
  2. 维度减少:每个细粒度专家的中间隐藏维度(dexpert_inter)减少了m倍。假设均匀的参数初始化,单个专家的输出方差也减少了m倍。

为了在初始化时保持MoE层的输出方差(与分割前基线匹配),γ必须补偿这两种效应。因此,组合的方差补偿因子为γ = m。

模型信息

LongCat-Flash的详细配置如下:

  • 分词器:采用字节对编码(BPE),词汇量优化为131,072个token,在计算效率和语言覆盖之间取得了有效平衡。
  • 多令牌预测:集成了多令牌预测(MTP)作为辅助训练目标,以提高推理效率。MTP头在评估中实现了>90%的接受率。
  • 模型配置:LongCat-Flash包含28层(不包括MTP层),隐藏状态维度为6144。每个MLA块使用64个注意力头,每个头部维度为128。密集路径中的FFN采用12288个中间维度,而每个FFN专家使用2048个维度。每层包含512个FFN专家和256个零计算专家,每个token精确激活12个专家(从两种类型中选择)。LongCat-Flash总共有5600亿参数,根据上下文不同,每个token激活186亿到313亿参数,平均激活约270亿参数。

训练策略与优化

LongCat-Flash的训练遵循三阶段课程:(1) 在约20万亿个token上训练模型,序列长度为8192,建立强大的基础模型;(2) 使用数万亿数据进一步增强推理和编码能力;(3) 通过在长上下文语料库上训练,将上下文长度扩展到128k。每个阶段都实施量身定制的数据策略,并辅以严格的去污染程序,以防止测试集泄漏。

超参数传递

LongCat-Flash采用基于宽度缩放的超参数传递策略,以高效训练大规模模型。该方法包括:(1) 在较小的代理模型上识别最优超参数,(2) 通过理论驱动的缩放规则将这些配置传递给目标模型。

传递机制以宽度缩放因子s = ntarget/nproxy为中心,其中n是模型的隐藏维度。我们特别采用"Adam LR Full Align"规则进行标准参数化。这些规则指定了如何调整代理模型的最优初始化方差(σ²)和学习率(η)以适应目标架构。实际传递规则总结如下表:

Agentic新SOTA诞生!美团开源5600亿参数MoE大模型的效率革命-AI.x社区

表1:实用超参数传递规则及其基础缩放指数

模型增长初始化

LongCat-Flash采用模型增长作为其初始化策略,从在数百亿token上预训练的半规模模型开始。在现有的模型增长方法中,我们采用层堆叠技术来扩展参数并提高性能。暂时忽略嵌入和反嵌入过程,整个过程可以表述为:

Lsmall = l1 ◦ l2 ◦ · · · ◦ ln
Ltarget = Lsmall ◦ Lsmall ◦ · · · ◦ Lsmall (r次)

其中li表示模型中第i层的变换,r表示扩展率,Lsmall表示小模型从token嵌入到最终隐藏状态的变换,Ltarget表示通过堆叠r个小模型副本构建的目标(大)模型的变换。我们的架构使用r = 2。

通过大量实验,我们一致观察到通过模型增长初始化的模型表现出特征损失轨迹:初始增加后加速收敛,最终优于随机初始化的基线。图5b展示了我们6B激活模型实验中的代表性案例,证明了模型增长初始化的优势。

训练稳定性

我们从三个角度增强了LongCat-Flash的训练稳定性:路由器稳定性、激活稳定性和优化器稳定性。

路由器稳定性

训练MoE模型的一个基本挑战是路由器稳定性,这源于两个竞争梯度之间的张力:

  • 语言建模(LM)损失,驱动专家专业化(将token分配给最合适的专家)
  • 辅助负载平衡(LB)损失,强制路由均匀性(在专家之间均匀分配token)

当LB梯度占主导地位时,所有专家的路由器参数收敛到相似性,导致无论输入token如何都做出均匀的路由决策。这消除了条件计算的好处,严重降低了模型性能。

为了诊断和控制这种行为,我们提出了一个具有两个关键指标的监控框架:

  • 路由器权重相似性:测量专家权重向量{wi}之间的平均成对余弦相似性。高相似性是负载平衡损失过度主导的直接指标。
  • 梯度范数比(Rg):量化两个损失对批量平均专家概率向量P⃗的相对影响:

Agentic新SOTA诞生!美团开源5600亿参数MoE大模型的效率革命-AI.x社区

其中,LLB是不带系数α计算的负载平衡损失。

通过隐藏z-loss实现激活稳定性

受路由器z-loss的启发,我们设计了隐藏z-loss来避免LLM训练期间大规模激活的普遍发生。通过经验观察,我们发现这种大规模激活与训练期间的严重损失峰值相关,这些峰值与优化不稳定性和潜在的性能下降相关。隐藏z-loss主要用于抑制具有极大大小的元素:

Agentic新SOTA诞生!美团开源5600亿参数MoE大模型的效率革命-AI.x社区

其中,λ是加权此损失的系数,|xt|是隐藏大小,abs(*)表示绝对值函数。如图6所示,我们发现非常小的损失系数可以显著抑制大规模激活现象,而不会损害训练损失,从而降低BF16训练期间数值错误的风险。

Agentic新SOTA诞生!美团开源5600亿参数MoE大模型的效率革命-AI.x社区

图6:带有次优超参数的小模型的最后一层隐藏状态的L2范数和训练损失

Adam的Epsilon的实际配置

随着模型规模的增加,Adam优化器中的epsilon(ε)参数(传统上被视为数值稳定性的次要常数)成为一个关键超参数。OLMo等人证明,将其设置为1e-8比默认值1e-5产生更优结果。这种增强的敏感性主要源于两个因素:(1) 大规模模型通常采用较小的参数初始化,(2) 它们在训练期间使用更大的批量大小。

如图7所示,我们跟踪梯度均方根(RMS)范数的经验分析揭示了两个关键发现:(1) 阈值效应:当ε接近观察到的梯度RMS范数时,发生显著的性能退化;(2) 下限稳定性:一旦ε降低到这个临界阈值以下,进一步减少对模型性能的影响可以忽略不计。因此,我们建议将ε设置为一个小的值(比预期的梯度RMS范数小几个数量级)。在LongCat-Flash中,我们采用ε=1e-16,这种配置确保了数值稳定性,同时保留了优化器的自适应特性。

Agentic新SOTA诞生!美团开源5600亿参数MoE大模型的效率革命-AI.x社区

探索不同模型大小的梯度均方根(RMS)范数和epsilon对损失的影响

预训练数据策略

通用预训练

我们首先进行通用预训练阶段,以确保整体模型能力。设计了多阶段流水线以确保数据质量和多样性。主要阶段包括:

  • 内容提取:我们使用定制版本的trafilatura进行通用网络内容,并为STEM材料使用专用流程,以正确解析公式、代码和表格等复杂元素。
  • 质量过滤:应用两步过滤方法。初始分类器清除明显低质量的文档,然后基于流畅性和内容完整性等指标进行更细粒度的筛选。
  • 去重:我们应用高效的MinHash实现进行大规模去重,辅以识别和处理重复网络模板的策略,以实现更准确的文档级去重。

最终的数据混合过程采用两阶段计划,逐步增加高质量推理数据(例如STEM和代码)的比例。

  • 阶段1:对于通用数据,我们采用实例级数据混合策略,平衡SampleMix中描述的数据质量和多样性,其中我们使用质量和多样性分数计算初始采样分布,并根据细粒度领域和写作风格标签进一步调整分布倾向。冗余的低价值领域(例如广告、体育、招聘)被下采样,而推理丰富的领域(例如科学)被上采样。
  • 阶段2:我们在此阶段优先考虑推理密集型领域,STEM和代码占最终混合的70%。初步实验表明,通用领域数据的突然减少会暂时降低模型能力。因此,我们实施渐进式代码比例增加,通过外部验证集上的持续困惑度监测指导,以确保平稳过渡而不影响一般性能。

推理和编码增强

为了进一步增强模型的推理和编码能力,并建立具有后续训练后潜力的强大基础模型,我们利用通过预训练数据检索和数据合成相结合生成的高质量相关数据进行中期训练阶段。

系统性的合成数据工作流通过三个关键机制优化数据质量和多样性:(1) 知识图谱遍历和节点组合,以确保概念复杂性和领域覆盖;(2) 多阶段迭代细化,逐步提高难度水平和思维链(CoT)推理质量;(3) 双模态生成和验证(文本和计算),以保证数学准确性和解决方案有效性。结合基于规则和基于模型的过滤器进行仔细的质量控制,最终数据集包含数千亿个token。

长上下文扩展

我们实施了两阶段上下文长度扩展策略,以满足后续长上下文推理和智能体训练的要求。在第一阶段,使用800亿训练token将上下文窗口从8k扩展到32k,RoPE的基频从1,000,000提高到5,000,000。在第二阶段,我们通过额外的200亿token进一步将其扩展到128k,将基频提高到10,000,000。

训练语料库建立在自然发生的长文本数据之上,例如高质量的书籍和小说。此外,我们开发了一种系统性的方法来组织存储库级别的源代码,以提高模型的长上下文能力。我们仔细选择了高质量的存储库,并应用多阶段过滤过程来删除非文本内容、构建工件和自动生成的代码,从而为长上下文预训练策划了200亿token的数据集。

为了确保模型在长度扩展期间的一般能力保持稳定,我们采用与主要预训练阶段相同的数据混合策略,并用额外的25%的长上下文数据增强此混合,以提高模型的长上下文性能。

去污染

我们对所有训练数据进行严格的去污染,以防止常见基准测试集的数据泄漏。对于网络和代码数据,我们删除包含与预定义测试集的任何13-gram重叠的文档。对于合成数据和问答对,我们采用基于BGE-m3嵌入的语义相似性的更严格策略。如果文档满足以下任一条件,则丢弃:(1) 与任何测试用例的语义相似性得分>0.9;(2) 词汇重叠(通过稀疏嵌入测量)与0.7-0.9之间的相似性得分相结合。

实验结果与性能评估

基准测试评估

本节介绍了LongCat-Flash基础模型的全面评估,包括方法和结果。

评估基准和配置

模型评估涵盖四个核心能力:通用任务、通用推理、数学推理和编码。用于评估的基准包括:

  • 通用任务:MMLU、MMLU-Pro、C-Eval和CMMLU。
  • 推理任务:GPQA、SuperGPQA、BBH、PIQA、DROP、CLUEWSC和WinoGrande。
  • 数学任务:GSM8K、MATH。
  • 编码任务:MBPP+、HumanEval+、MultiPL-E和CRUXEval。

我们将LongCat-Flash基础模型与最先进的开源基础MoE模型进行比较,包括DeepSeek-V3.1 Base、Llama-4-Maverick Base和Kimi-K2 Base。

为确保公平性,所有模型都在相同的流水线和配置下进行评估。对于无法重现的少数结果,我们直接采用公开报告中的指标,并在表2中明确标注。

评估结果

表2展示了不同基准测试的评估结果。尽管其紧凑的活动/总参数大小,LongCat-Flash基础模型实现了与最先进基础模型相当的性能。虽然Llama-4-Maverick具有更少的激活和总参数,但LongCat-Flash在大多数基准测试中表现更好或相当,特别是在智能体任务方面。

Agentic新SOTA诞生!美团开源5600亿参数MoE大模型的效率革命-AI.x社区

表2:LongCat-Flash与其他模型在不同基准测试上的性能比较

推理性能

LongCat-Flash在推理效率方面表现出色,实现了每秒超过100个token(TPS)的推理速度,每百万输出token成本为0.70美元。这一性能显著优于类似规模的模型,主要得益于其创新的架构设计和系统优化。

具体来说,ScMoE架构实现了单批次重叠流水线,将理论每个输出令牌时间(TPOT)减少了近50%。此外,它允许并发执行不同的通信模式:密集FFN上的节点内张量并行通信(通过NVLink)可以与节点间专家并行通信(通过RDMA)完全重叠,从而最大化总网络利用率。

训练效率

得益于可扩展的架构设计、训练策略和基础设施工作的协同作用,LongCat-Flash实现了高训练吞吐量和低推理延迟。值得注意的是,我们在30天内完成了5600亿模型在超过20万亿token上的预训练,并且在没有手动干预进行故障解决的情况下实现了98.48%的时间可用性。

结论与意义

LongCat-Flash代表了大型语言模型在计算效率和智能体能力方面的重大突破。通过创新的架构设计,包括Zero-computation Experts和Shortcut-connected MoE,LongCat-Flash实现了根据token重要性动态分配计算资源的能力,同时显著扩大了计算-通信重叠窗口,提高了训练和推理效率。

在训练策略方面,LongCat-Flash采用了超参数传递、模型增长初始化、多管齐下的稳定性套件和确定性计算等创新方法,确保了大规模模型训练的稳定性和可扩展性。这些创新使得LongCat-Flash能够在30天内完成超过20万亿token的训练,同时实现超过100 TPS的推理速度和每百万输出token仅0.70美元的成本。

在性能方面,LongCat-Flash作为非思维基础模型,在多个基准测试中表现出与最先进的非思维模型相当的性能,包括DeepSeek-V3.1和Kimi-K2,同时使用更少的参数并提供更快的推理速度。特别是在智能体任务方面,LongCat-Flash表现出色,在ArenaHard-V2上得分86.5,在TerminalBench上得分39.5,在τ2-Bench上得分67.7,展示了在通用领域、编码和智能体工具使用方面的强大能力。

LongCat-Flash的成功不仅在于其技术创新,更在于它证明了算法设计、底层系统优化和数据策略在推动可扩展智能前沿方面同样关键。这一发现为未来大型语言模型的发展指明了方向,即通过多方面的协同创新,实现模型性能和计算效率的双重突破。

  • LongCat Chat: https://longcat.ai
  • Hugging Face: https://huggingface.co/meituan-longcat
  • Github: https://github.com/meituan-longcat

本文转载自​​​​AIGC深一度,作者:一度


收藏 1
回复
举报
回复
相关推荐