GPU 网络基础，Part 2（MoE 训练中的网络挑战；什么是前、后端网络；什么是东西向、南北向流量）原创精华

发布于 2025-9-30 11:30

浏览

0收藏

编者按： 在大规模人工智能模型训练日益依赖分布式 GPU 集群的今天，我们是否真正理解支撑这些系统高效运行的网络架构？数据如何从存储设备抵达 GPU？训练过程中不同并行策略又如何对网络提出截然不同的挑战？
我们今天为大家带来的文章，作者的核心观点是：现代 AI 训练系统必须通过严格区分前端与后端网络，并针对数据并行、流水线并行和专家并行等不同通信模式进行协同优化，才能有效应对日益复杂的网络拥塞与延迟问题。
文章首先厘清了“前端网络”与“后端网络”的功能边界，强调将关键训练流量隔离在高性能后端网络中的必要性；接着深入剖析了三种主流并行训练策略 —— 数据并行带来的全局同步压力、流水线并行对拓扑感知调度的依赖，以及专家并行引发的非均匀突发流量；最后以 DeepSeek-V3 混合专家模型为例，展示了如何通过算法、通信内核与硬件协同设计，实现计算与通信的高效重叠，从而突破跨节点训练的瓶颈。

作者 | Austin Lyons

编译 | 岳扬

01 前端网络 vs 后端网络

上次我们探讨了大语言模型预训练中的 GPU 间通信，重点分析了与邻近 GPU 的高速高带宽连接（如通过 NVLink），以及通过 InfiniBand 或以太网经网络交换机与远端节点的稍慢速、低带宽连接。

这套 GPU 间通信网络被称为后端网络。

GPU 网络基础，Part 2（MoE 训练中的网络挑战；什么是前、后端网络；什么是东西向、南北向流量）-AI.x社区

后端网络包含节点内与节点间的 GPU 通信链路，例如 NVLink 和 InfiniBand

这些重要的 GPU 互联技术虽然常成为行业焦点，但其实只是整个网络体系的一部分。

试着想一想训练数据是如何抵达 GPU 的。大语言模型需要从存储设备（SSD）吞食数万亿计的词元供神经网络训练。这类通信通过独立的、基于以太网的前端网络完成。

许多其他的工作负载也会经过前端网络，例如集群管理软件[1]、开发人员远程访问集群进行调试等。

GPU 网络基础，Part 2（MoE 训练中的网络挑战；什么是前、后端网络；什么是东西向、南北向流量）-AI.x社区

为简洁起见，仅列举流经前端网络的部分工作负载。实际场景中还包含作业调度器、编排系统、遥测数据、工程师的笔记本电脑等。

前端网络被刻意与后端隔离，以防止相互干扰和拥塞。 像加载数据、记录日志这类常规任务，都会被隔离在高速 GPU 网络之外，从而确保非关键流量不会干扰昂贵训练任务所依赖的网络环境。

由于前端设备可能位于数据中心之外，通常需要防火墙和访问分段策略（access segmentation policies）来隔离后端网络与前端流量。这种做法是可行的，因为前端流量通常对延迟具有较高的容忍度。

02 南北向流量 vs 东西向流量

GPU 与前端网络设备间的通信被称为南北向流量。

GPU 网络基础，Part 2（MoE 训练中的网络挑战；什么是前、后端网络；什么是东西向、南北向流量）-AI.x社区

可视化图表总能帮我记住南北向流量这类术语😊

这种南北向流量通过以太网传输。

为何选择以太网？因为其成本低廉且无处不在。前端设备本就基于标准以太网构建，数据中心运维人员也熟悉并喜欢以太网技术。

能猜到后端网络内部的流量被称为什么吗？

没错，就是东西向流量。

GPU 网络基础，Part 2（MoE 训练中的网络挑战；什么是前、后端网络；什么是东西向、南北向流量）-AI.x社区

东西向流量针对 GPU 间纵向扩展与横向扩展通信进行了延迟优化。在超大规模训练中，后端网络甚至可跨越多个数据中心！🤯

正如前文所言，实际场景远比这些简化的示意图复杂😅

但你现在理解的这个简化版本非常重要，是继续深入学习、应对更复杂情况的起点和基石。

2.1 设置检查点与直连存储

在大语言模型预训练过程中，设置模型检查点是指定期将模型参数快照保存至持久存储的做法。这些检查点能确保当硬件发生故障时，训练任务可以从最后一个确认无误的状态继续运行，同时它们也提供了带版本标记的模型文件。

若每次高达数十或数百 GB 的大规模检查点写入操作通过前端以太网传输，可能与其他非关键流量冲突，引发拥塞并导致不必要的训练中断。为避免这种问题，AI 训练集群可将专用的高速存储直接接入后端网络：

GPU 网络基础，Part 2（MoE 训练中的网络挑战；什么是前、后端网络；什么是东西向、南北向流量）-AI.x社区

当训练系统直接依赖于特定系统时，将其部署在后端网络是合理的举动

在这种架构下，检查点相关操作作为附加的东西向流量，全程在后端网络内传输。

03 混合专家模型训练与网络影响

我们通过一个真实案例来巩固理解。

训练大语言模型需要密集的东西向通信，因为工作负载会分布在数万甚至数十万个 GPU 上。 这些 GPU 需要频繁交换梯度更新，以确保模型的学习进程保持一致，并最终收敛到准确的输出结果。

这种多并行方法的典型代表是 DeepSeek-V3 混合专家模型。

DeepSeek 通过组合使用数据并行、流水线并行和专家并行等策略来分配训练负载。

数据并行将数据拆分到多个 GPU 上，每个 GPU 独立处理其数据分片后，再同步更新到共享模型：

GPU 网络基础，Part 2（MoE 训练中的网络挑战；什么是前、后端网络；什么是东西向、南北向流量）-AI.x社区

Source:https://www.anyscale.com/blog/what-is-distributed-training ，可将“worker”视为一组 GPU

流水线并行将模型拆分到多个 GPU 上，每个 GPU 负责处理一部分网络层并传递中间结果：

GPU 网络基础，Part 2（MoE 训练中的网络挑战；什么是前、后端网络；什么是东西向、南北向流量）-AI.x社区

Source:https://colossalai.org/docs/concepts/paradigms_of_parallelism/

专家并行将模型划分为多个专家（即神经网络的子模块），并将这些专家分布到不同的 GPU 上。在处理每个词元时，只激活其中的少数几个专家，以此来减少计算量：

GPU 网络基础，Part 2（MoE 训练中的网络挑战；什么是前、后端网络；什么是东西向、南北向流量）-AI.x社区

Source:https://aihub.hkuspace.hku.hk/2024/05/24/accelerate-mixtral-8x7b-pre-training-with-expert-parallelism-on-amazon-sagemaker/

我们可以从中得出什么结论？

每种策略都将问题分解，使得每个 GPU 仅处理部分网络和训练数据。因此需要频繁的 GPU 间通信来保持同步，确保模型更新的一致性。

另外——现实情况十分复杂！数据并行、流水线并行和专家并行的相互作用会产生重叠通信，必须仔细管理以避免阻塞。

每种策略都会产生独特的东西向流量模式。我们来逐层分析其带来的网络压力。

3.1 数据并行：全局同步

在数据并行中，每个 GPU 处理一个不同的数据 mini-batch，在每个训练步之后，都会将其学习进度与其他 GPU 共享。因此，这些 GPU 必须执行一次“全归约”操作，来平均梯度和同步权重 —— 这是一个集合通信操作，需要每个 GPU 都交换数 GB 的数据。

由于此操作在每一步都会发生且阻塞训练进程，其对延迟极其敏感。

你可以想象，在每一个训练步结束后，当数据同时通过后端网络进行传输时，这会给整个系统带来多大的网络压力：

GPU 网络基础，Part 2（MoE 训练中的网络挑战；什么是前、后端网络；什么是东西向、南北向流量）-AI.x社区

每个节点都需与其他所有节点通信 —— 这意味着大量经由交换机的通信

这种网络压力催生了技术创新。英伟达的 InfiniBand 技术结合 SHARP[2]（Scalable Hierarchical Aggregation and Reduction Protocol），支持在网络内部完成数据聚合运算，从而最大限度地减少网络流量和延迟。这是网络交换机本身在执行计算任务！

可参考英伟达这段精彩的两分钟解析：https://youtu.be/uzYZP_z_5WE

通过让交换机执行计算任务来减少网络流量，是英伟达系统级思维的典范 —— 即在人工智能数据中心层面进行创新。

总之，数据并行显然是网络密集型的训练方式，需要健壮、低延迟、高吞吐的网络架构来实现高效扩展。

3.2 流水线并行：链式依赖

流水线并行将模型按网络层拆分到多个 GPU 上，每个 GPU 负责前向传播和反向传播的不同阶段。激活值逐级向前传递，而梯度则沿相反方向流动。这就形成了一系列严格的依赖关系：每个 GPU 必须等待前一阶段的输入才能开始计算，随后将结果传递至下一阶段。

网络拥塞造成的任何延迟都会阻塞整个流水线。为最大限度避免此问题，流水线各阶段必须部署在物理位置邻近的节点上，以减少跳数并避开拥堵的网络路径。因此，流水线并行依赖拓扑感知调度（topology-aware scheduling）来维持稳定的吞吐量。

3.3 专家并行：非均匀流量

专家并行引入了不同的通信模式：它将单个词元路由到少数特定的专家。这些专家是位于不同 GPU 上的子神经网络，每个输入仅激活其中少数几个。一个词元可能被分发到专家 3 和专家 12，而这两个专家可能位于不同节点的 GPU 上。

这种设置会导致不规则且突发的通信模式。部分 GPU 可能接收大量词元，而其他 GPU 则基本处于闲置状态。由此产生的流量具有非均匀特性，且随每批数据动态变化。

由于通信行为非确定性，这也增加了系统规划与调试的复杂度。

软件层面需进行大量工作以实现专家间的负载均衡。深度求索分享了其策略与代码[3]：

如 DeepSeek-V3 论文所述，我们采用冗余专家策略对高负载专家进行复制，并通过启发式方法将复制的专家分配至 GPU，确保不同 GPU 间的负载均衡。此外，得益于 DeepSeek-V3 使用的分组限制专家路由（group-limited expert routing）机制，我们尽可能将同组专家部署在同一节点，以减少节点间的数据流量。

3.4 整体协同

每种并行策略本身都对系统有着严苛的要求。后端网络必须同时支撑三种不同类型的压力：

全局性的集合通信操作（数据并行）
同步链式流（流水线并行）
稀疏的、突发性的跨 GPU 调度（专家并行）

这些网络任务会同时发生：激活值在流水线中逐级传递，梯度全还原操作同步启动，而被选定要参与计算的存放着专家模型的 GPU 会主动请求获取它们需要处理的词元数据。后端网络必须能吸纳这种混乱的并发流量，且不降低性能。

04 理解 DeepSeek 的技术突破

理解了 MoE 训练中的网络挑战，我们便能体会 DeepSeek 如何通过精密的系统设计来规避拥塞的深思熟虑。

从其 V3 技术报告中可见：

通过算法、框架与硬件的协同设计，我们克服了跨节点 MoE 训练中的通信瓶颈，实现了计算与通信的近乎完全重叠。这大大提升了训练效率，同时降低了成本，使我们能够在不增加额外开销的前提下进一步扩展模型规模。

他们是如何做到的呢？还记得我们上次探讨的那些计算与通信创新[4]吗？再次引用 DeepSeek 的分享：

为高效训练 DeepSeek-V3，我们实施了精细的工程优化。首先，我们设计了 DualPipe 算法来优化流水线并行。与现有 PP 方法相比，DualPipe 的流水线气泡（译者注：指的是在流水线并行处理中，由于阶段之间未能完全紧密衔接而出现的空闲等待时间，是影响大规模分布式训练效率的关键瓶颈之一。）更少。更重要的是，它通过重叠前后向过程的计算与通信阶段，解决了跨节点专家并行带来的沉重通信开销挑战。其次，我们开发了高效的跨节点全交换通信内核，充分利用 IB 和 NVLink 带宽，并节省专用于通信的流式多处理器资源。最后，我们精细优化了训练期间的显存占用，使得无需使用昂贵的张量并行也能训练 DeepSeek-V3。

其他 AI 实验室必然也在全力攻克网络拥塞难题。尽管它们不像 DeepSeek 那样受限于 H800 的带宽约束，但同样要应对复杂的并行策略与网络压力。不过我们还是要特别向 DeepSeek 致敬，因为他们无私分享了这些技术洞见。

END

本期互动内容 🍻

❓你觉得在未来，是算力会先遇到天花板，还是网络通信会先成为 AI 发展的最大瓶颈？

文中链接

[1]https://developer.nvidia.com/cluster-management

[2]https://resources.nvidia.com/en-us-accelerated-networking-resource-library/network-computing-nvidia-sharp

[3]https://github.com/deepseek-ai/EPLB

[4]https://www.chipstrat.com/p/dispelling-deepseek-myths-studying

本文经原作者授权，由 Baihai IDP 编译。如需转载译文，请联系获取授权。

原文链接：

https://www.chipstrat.com/p/gpu-networking-basics-part-2