GPU 网络基础,Part 2(MoE 训练中的网络挑战;什么是前、后端网络;什么是东西向、南北向流量) 原创 精华

发布于 2025-9-30 11:30
浏览
0收藏

编者按: 在大规模人工智能模型训练日益依赖分布式 GPU 集群的今天,我们是否真正理解支撑这些系统高效运行的网络架构?数据如何从存储设备抵达 GPU?训练过程中不同并行策略又如何对网络提出截然不同的挑战?

我们今天为大家带来的文章,作者的核心观点是:现代 AI 训练系统必须通过严格区分前端与后端网络,并针对数据并行、流水线并行和专家并行等不同通信模式进行协同优化,才能有效应对日益复杂的网络拥塞与延迟问题。

文章首先厘清了“前端网络”与“后端网络”的功能边界,强调将关键训练流量隔离在高性能后端网络中的必要性;接着深入剖析了三种主流并行训练策略 —— 数据并行带来的全局同步压力、流水线并行对拓扑感知调度的依赖,以及专家并行引发的非均匀突发流量;最后以 DeepSeek-V3 混合专家模型为例,展示了如何通过算法、通信内核与硬件协同设计,实现计算与通信的高效重叠,从而突破跨节点训练的瓶颈。

作者 | Austin Lyons

编译 | 岳扬

01 前端网络 vs 后端网络

上次我们探讨了大语言模型预训练中的 GPU 间通信,重点分析了与邻近 GPU 的高速高带宽连接(如通过 NVLink),以及通过 InfiniBand 或以太网经网络交换机与远端节点的稍慢速、低带宽连接。

这套 GPU 间通信网络被称为后端网络。

GPU 网络基础,Part 2(MoE 训练中的网络挑战;什么是前、后端网络;什么是东西向、南北向流量)-AI.x社区

后端网络包含节点内与节点间的 GPU 通信链路,例如 NVLink 和 InfiniBand

这些重要的 GPU 互联技术虽然常成为行业焦点,但其实只是整个网络体系的一部分。

试着想一想训练数据是如何抵达 GPU 的。大语言模型需要从存储设备(SSD)吞食数万亿计的词元供神经网络训练。这类通信通过独立的、基于以太网的前端网络完成。

许多其他的工作负载也会经过前端网络,例如集群管理软件[1]、开发人员远程访问集群进行调试等。

GPU 网络基础,Part 2(MoE 训练中的网络挑战;什么是前、后端网络;什么是东西向、南北向流量)-AI.x社区

为简洁起见,仅列举流经前端网络的部分工作负载。实际场景中还包含作业调度器、编排系统、遥测数据、工程师的笔记本电脑等。

前端网络被刻意与后端隔离,以防止相互干扰和拥塞。 像加载数据、记录日志这类常规任务,都会被隔离在高速 GPU 网络之外,从而确保非关键流量不会干扰昂贵训练任务所依赖的网络环境。

由于前端设备可能位于数据中心之外,通常需要防火墙和访问分段策略(access segmentation policies)来隔离后端网络与前端流量。这种做法是可行的,因为前端流量通常对延迟具有较高的容忍度。

02 南北向流量 vs 东西向流量

GPU 与前端网络设备间的通信被称为南北向流量。

GPU 网络基础,Part 2(MoE 训练中的网络挑战;什么是前、后端网络;什么是东西向、南北向流量)-AI.x社区

可视化图表总能帮我记住南北向流量这类术语😊

这种南北向流量通过以太网传输。

为何选择以太网?因为其成本低廉且无处不在。前端设备本就基于标准以太网构建,数据中心运维人员也熟悉并喜欢以太网技术。

能猜到后端网络内部的流量被称为什么吗?

没错,就是东西向流量。

GPU 网络基础,Part 2(MoE 训练中的网络挑战;什么是前、后端网络;什么是东西向、南北向流量)-AI.x社区

东西向流量针对 GPU 间纵向扩展与横向扩展通信进行了延迟优化。在超大规模训练中,后端网络甚至可跨越多个数据中心!🤯

正如前文所言,实际场景远比这些简化的示意图复杂😅

但你现在理解的这个简化版本非常重要,是继续深入学习、应对更复杂情况的起点和基石。

2.1 设置检查点与直连存储

在大语言模型预训练过程中,设置模型检查点是指定期将模型参数快照保存至持久存储的做法。这些检查点能确保当硬件发生故障时,训练任务可以从最后一个确认无误的状态继续运行,同时它们也提供了带版本标记的模型文件。

若每次高达数十或数百 GB 的大规模检查点写入操作通过前端以太网传输,可能与其他非关键流量冲突,引发拥塞并导致不必要的训练中断。为避免这种问题,AI 训练集群可将专用的高速存储直接接入后端网络:

GPU 网络基础,Part 2(MoE 训练中的网络挑战;什么是前、后端网络;什么是东西向、南北向流量)-AI.x社区

当训练系统直接依赖于特定系统时,将其部署在后端网络是合理的举动

在这种架构下,检查点相关操作作为附加的东西向流量,全程在后端网络内传输。

03 混合专家模型训练与网络影响

我们通过一个真实案例来巩固理解。

训练大语言模型需要密集的东西向通信,因为工作负载会分布在数万甚至数十万个 GPU 上。 这些 GPU 需要频繁交换梯度更新,以确保模型的学习进程保持一致,并最终收敛到准确的输出结果。

这种多并行方法的典型代表是 DeepSeek-V3 混合专家模型。

DeepSeek 通过组合使用数据并行、流水线并行和专家并行等策略来分配训练负载。

数据并行将数据拆分到多个 GPU 上,每个 GPU 独立处理其数据分片后,再同步更新到共享模型:

GPU 网络基础,Part 2(MoE 训练中的网络挑战;什么是前、后端网络;什么是东西向、南北向流量)-AI.x社区

Source:​​https://www.anyscale.com/blog/what-is-distributed-training​​ ,可将“worker”视为一组 GPU

流水线并行将模型拆分到多个 GPU 上,每个 GPU 负责处理一部分网络层并传递中间结果:

GPU 网络基础,Part 2(MoE 训练中的网络挑战;什么是前、后端网络;什么是东西向、南北向流量)-AI.x社区

Source:​​https://colossalai.org/docs/concepts/paradigms_of_parallelism/​

专家并行将模型划分为多个专家(即神经网络的子模块),并将这些专家分布到不同的 GPU 上。在处理每个词元时,只激活其中的少数几个专家,以此来减少计算量:

GPU 网络基础,Part 2(MoE 训练中的网络挑战;什么是前、后端网络;什么是东西向、南北向流量)-AI.x社区

Source:​​https://aihub.hkuspace.hku.hk/2024/05/24/accelerate-mixtral-8x7b-pre-training-with-expert-parallelism-on-amazon-sagemaker/​

我们可以从中得出什么结论?

每种策略都将问题分解,使得每个 GPU 仅处理部分网络和训练数据。因此需要频繁的 GPU 间通信来保持同步,确保模型更新的一致性。

另外——现实情况十分复杂!数据并行、流水线并行和专家并行的相互作用会产生重叠通信,必须仔细管理以避免阻塞。

每种策略都会产生独特的东西向流量模式。我们来逐层分析其带来的网络压力。

3.1 数据并行:全局同步

在数据并行中,每个 GPU 处理一个不同的数据 mini-batch,在每个训练步之后,都会将其学习进度与其他 GPU 共享。因此,这些 GPU 必须执行一次“全归约”操作,来平均梯度和同步权重 —— 这是一个集合通信操作,需要每个 GPU 都交换数 GB 的数据。

由于此操作在每一步都会发生且阻塞训练进程,其对延迟极其敏感。

你可以想象,在每一个训练步结束后,当数据同时通过后端网络进行传输时,这会给整个系统带来多大的网络压力:

GPU 网络基础,Part 2(MoE 训练中的网络挑战;什么是前、后端网络;什么是东西向、南北向流量)-AI.x社区

每个节点都需与其他所有节点通信 —— 这意味着大量经由交换机的通信

这种网络压力催生了技术创新。英伟达的 InfiniBand 技术结合 SHARP[2](Scalable Hierarchical Aggregation and Reduction Protocol),支持在网络内部完成数据聚合运算,从而最大限度地减少网络流量和延迟。这是网络交换机本身在执行计算任务!

可参考英伟达这段精彩的两分钟解析:​​https://youtu.be/uzYZP_z_5WE​

通过让交换机执行计算任务来减少网络流量,是英伟达系统级思维的典范 —— 即在人工智能数据中心层面进行创新。

总之,数据并行显然是网络密集型的训练方式,需要健壮、低延迟、高吞吐的网络架构来实现高效扩展。

3.2 流水线并行:链式依赖

流水线并行将模型按网络层拆分到多个 GPU 上,每个 GPU 负责前向传播和反向传播的不同阶段。激活值逐级向前传递,而梯度则沿相反方向流动。这就形成了一系列严格的依赖关系:每个 GPU 必须等待前一阶段的输入才能开始计算,随后将结果传递至下一阶段。

网络拥塞造成的任何延迟都会阻塞整个流水线。为最大限度避免此问题,流水线各阶段必须部署在物理位置邻近的节点上,以减少跳数并避开拥堵的网络路径。因此,流水线并行依赖拓扑感知调度(topology-aware scheduling)来维持稳定的吞吐量。

3.3 专家并行:非均匀流量

专家并行引入了不同的通信模式:它将单个词元路由到少数特定的专家。这些专家是位于不同 GPU 上的子神经网络,每个输入仅激活其中少数几个。一个词元可能被分发到专家 3 和专家 12,而这两个专家可能位于不同节点的 GPU 上。

这种设置会导致不规则且突发的通信模式。部分 GPU 可能接收大量词元,而其他 GPU 则基本处于闲置状态。由此产生的流量具有非均匀特性,且随每批数据动态变化。

由于通信行为非确定性,这也增加了系统规划与调试的复杂度。

软件层面需进行大量工作以实现专家间的负载均衡。深度求索分享了其策略与代码[3]:

如 DeepSeek-V3 论文所述,我们采用冗余专家策略对高负载专家进行复制,并通过启发式方法将复制的专家分配至 GPU,确保不同 GPU 间的负载均衡。此外,得益于 DeepSeek-V3 使用的分组限制专家路由(group-limited expert routing)机制,我们尽可能将同组专家部署在同一节点,以减少节点间的数据流量。

3.4 整体协同

每种并行策略本身都对系统有着严苛的要求。后端网络必须同时支撑三种不同类型的压力:

  • 全局性的集合通信操作(数据并行)
  • 同步链式流(流水线并行)
  • 稀疏的、突发性的跨 GPU 调度(专家并行)

这些网络任务会同时发生:激活值在流水线中逐级传递,梯度全还原操作同步启动,而被选定要参与计算的存放着专家模型的 GPU 会主动请求获取它们需要处理的词元数据。后端网络必须能吸纳这种混乱的并发流量,且不降低性能。

04 理解 DeepSeek 的技术突破

理解了 MoE 训练中的网络挑战,我们便能体会 DeepSeek 如何通过精密的系统设计来规避拥塞的深思熟虑。

从其 V3 技术报告中可见:

通过算法、框架与硬件的协同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,实现了计算与通信的近乎完全重叠。这大大提升了训练效率,同时降低了成本,使我们能够在不增加额外开销的前提下进一步扩展模型规模。

他们是如何做到的呢?还记得我们上次探讨的那些计算与通信创新[4]吗?再次引用 DeepSeek 的分享:

为高效训练 DeepSeek-V3,我们实施了精细的工程优化。首先,我们设计了 DualPipe 算法来优化流水线并行。与现有 PP 方法相比,DualPipe 的流水线气泡(译者注:指的是在流水线并行处理中,由于阶段之间未能完全紧密衔接而出现的空闲等待时间,是影响大规模分布式训练效率的关键瓶颈之一。)更少。更重要的是,它通过重叠前后向过程的计算与通信阶段,解决了跨节点专家并行带来的沉重通信开销挑战。其次,我们开发了高效的跨节点全交换通信内核,充分利用 IB 和 NVLink 带宽,并节省专用于通信的流式多处理器资源。最后,我们精细优化了训练期间的显存占用,使得无需使用昂贵的张量并行也能训练 DeepSeek-V3。

其他 AI 实验室必然也在全力攻克网络拥塞难题。尽管它们不像 DeepSeek 那样受限于 H800 的带宽约束,但同样要应对复杂的并行策略与网络压力。不过我们还是要特别向 DeepSeek 致敬,因为他们无私分享了这些技术洞见。

END

本期互动内容 🍻

❓你觉得在未来,是算力会先遇到天花板,还是网络通信会先成为 AI 发展的最大瓶颈?

文中链接

[1]​​https://developer.nvidia.com/cluster-management​

[2]​​https://resources.nvidia.com/en-us-accelerated-networking-resource-library/network-computing-nvidia-sharp​

[3]​​https://github.com/deepseek-ai/EPLB​

[4]​​https://www.chipstrat.com/p/dispelling-deepseek-myths-studying​

本文经原作者授权,由 Baihai IDP 编译。如需转载译文,请联系获取授权。

原文链接:

​https://www.chipstrat.com/p/gpu-networking-basics-part-2​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
标签
收藏
回复
举报
回复
相关推荐