
GPU 网络基础,Part 2(MoE 训练中的网络挑战;什么是前、后端网络;什么是东西向、南北向流量) 原创 精华
编者按: 在大规模人工智能模型训练日益依赖分布式 GPU 集群的今天,我们是否真正理解支撑这些系统高效运行的网络架构?数据如何从存储设备抵达 GPU?训练过程中不同并行策略又如何对网络提出截然不同的挑战?
我们今天为大家带来的文章,作者的核心观点是:现代 AI 训练系统必须通过严格区分前端与后端网络,并针对数据并行、流水线并行和专家并行等不同通信模式进行协同优化,才能有效应对日益复杂的网络拥塞与延迟问题。
文章首先厘清了“前端网络”与“后端网络”的功能边界,强调将关键训练流量隔离在高性能后端网络中的必要性;接着深入剖析了三种主流并行训练策略 —— 数据并行带来的全局同步压力、流水线并行对拓扑感知调度的依赖,以及专家并行引发的非均匀突发流量;最后以 DeepSeek-V3 混合专家模型为例,展示了如何通过算法、通信内核与硬件协同设计,实现计算与通信的高效重叠,从而突破跨节点训练的瓶颈。
作者 | Austin Lyons
编译 | 岳扬
01 前端网络 vs 后端网络
上次我们探讨了大语言模型预训练中的 GPU 间通信,重点分析了与邻近 GPU 的高速高带宽连接(如通过 NVLink),以及通过 InfiniBand 或以太网经网络交换机与远端节点的稍慢速、低带宽连接。
这套 GPU 间通信网络被称为后端网络。
后端网络包含节点内与节点间的 GPU 通信链路,例如 NVLink 和 InfiniBand
这些重要的 GPU 互联技术虽然常成为行业焦点,但其实只是整个网络体系的一部分。
试着想一想训练数据是如何抵达 GPU 的。大语言模型需要从存储设备(SSD)吞食数万亿计的词元供神经网络训练。这类通信通过独立的、基于以太网的前端网络完成。
许多其他的工作负载也会经过前端网络,例如集群管理软件[1]、开发人员远程访问集群进行调试等。
为简洁起见,仅列举流经前端网络的部分工作负载。实际场景中还包含作业调度器、编排系统、遥测数据、工程师的笔记本电脑等。
前端网络被刻意与后端隔离,以防止相互干扰和拥塞。 像加载数据、记录日志这类常规任务,都会被隔离在高速 GPU 网络之外,从而确保非关键流量不会干扰昂贵训练任务所依赖的网络环境。
由于前端设备可能位于数据中心之外,通常需要防火墙和访问分段策略(access segmentation policies)来隔离后端网络与前端流量。这种做法是可行的,因为前端流量通常对延迟具有较高的容忍度。
02 南北向流量 vs 东西向流量
GPU 与前端网络设备间的通信被称为南北向流量。
可视化图表总能帮我记住南北向流量这类术语😊
这种南北向流量通过以太网传输。
为何选择以太网?因为其成本低廉且无处不在。前端设备本就基于标准以太网构建,数据中心运维人员也熟悉并喜欢以太网技术。
能猜到后端网络内部的流量被称为什么吗?
没错,就是东西向流量。
东西向流量针对 GPU 间纵向扩展与横向扩展通信进行了延迟优化。在超大规模训练中,后端网络甚至可跨越多个数据中心!🤯
正如前文所言,实际场景远比这些简化的示意图复杂😅
但你现在理解的这个简化版本非常重要,是继续深入学习、应对更复杂情况的起点和基石。
2.1 设置检查点与直连存储
在大语言模型预训练过程中,设置模型检查点是指定期将模型参数快照保存至持久存储的做法。这些检查点能确保当硬件发生故障时,训练任务可以从最后一个确认无误的状态继续运行,同时它们也提供了带版本标记的模型文件。
若每次高达数十或数百 GB 的大规模检查点写入操作通过前端以太网传输,可能与其他非关键流量冲突,引发拥塞并导致不必要的训练中断。为避免这种问题,AI 训练集群可将专用的高速存储直接接入后端网络:
当训练系统直接依赖于特定系统时,将其部署在后端网络是合理的举动
在这种架构下,检查点相关操作作为附加的东西向流量,全程在后端网络内传输。
03 混合专家模型训练与网络影响
我们通过一个真实案例来巩固理解。
训练大语言模型需要密集的东西向通信,因为工作负载会分布在数万甚至数十万个 GPU 上。 这些 GPU 需要频繁交换梯度更新,以确保模型的学习进程保持一致,并最终收敛到准确的输出结果。
这种多并行方法的典型代表是 DeepSeek-V3 混合专家模型。
DeepSeek 通过组合使用数据并行、流水线并行和专家并行等策略来分配训练负载。
数据并行将数据拆分到多个 GPU 上,每个 GPU 独立处理其数据分片后,再同步更新到共享模型:
Source:https://www.anyscale.com/blog/what-is-distributed-training ,可将“worker”视为一组 GPU
流水线并行将模型拆分到多个 GPU 上,每个 GPU 负责处理一部分网络层并传递中间结果:
Source:https://colossalai.org/docs/concepts/paradigms_of_parallelism/
专家并行将模型划分为多个专家(即神经网络的子模块),并将这些专家分布到不同的 GPU 上。在处理每个词元时,只激活其中的少数几个专家,以此来减少计算量:
我们可以从中得出什么结论?
每种策略都将问题分解,使得每个 GPU 仅处理部分网络和训练数据。因此需要频繁的 GPU 间通信来保持同步,确保模型更新的一致性。
另外——现实情况十分复杂!数据并行、流水线并行和专家并行的相互作用会产生重叠通信,必须仔细管理以避免阻塞。
每种策略都会产生独特的东西向流量模式。我们来逐层分析其带来的网络压力。
3.1 数据并行:全局同步
在数据并行中,每个 GPU 处理一个不同的数据 mini-batch,在每个训练步之后,都会将其学习进度与其他 GPU 共享。因此,这些 GPU 必须执行一次“全归约”操作,来平均梯度和同步权重 —— 这是一个集合通信操作,需要每个 GPU 都交换数 GB 的数据。
由于此操作在每一步都会发生且阻塞训练进程,其对延迟极其敏感。
你可以想象,在每一个训练步结束后,当数据同时通过后端网络进行传输时,这会给整个系统带来多大的网络压力:
每个节点都需与其他所有节点通信 —— 这意味着大量经由交换机的通信
这种网络压力催生了技术创新。英伟达的 InfiniBand 技术结合 SHARP[2](Scalable Hierarchical Aggregation and Reduction Protocol),支持在网络内部完成数据聚合运算,从而最大限度地减少网络流量和延迟。这是网络交换机本身在执行计算任务!
可参考英伟达这段精彩的两分钟解析:https://youtu.be/uzYZP_z_5WE
通过让交换机执行计算任务来减少网络流量,是英伟达系统级思维的典范 —— 即在人工智能数据中心层面进行创新。
总之,数据并行显然是网络密集型的训练方式,需要健壮、低延迟、高吞吐的网络架构来实现高效扩展。
3.2 流水线并行:链式依赖
流水线并行将模型按网络层拆分到多个 GPU 上,每个 GPU 负责前向传播和反向传播的不同阶段。激活值逐级向前传递,而梯度则沿相反方向流动。这就形成了一系列严格的依赖关系:每个 GPU 必须等待前一阶段的输入才能开始计算,随后将结果传递至下一阶段。
网络拥塞造成的任何延迟都会阻塞整个流水线。为最大限度避免此问题,流水线各阶段必须部署在物理位置邻近的节点上,以减少跳数并避开拥堵的网络路径。因此,流水线并行依赖拓扑感知调度(topology-aware scheduling)来维持稳定的吞吐量。
3.3 专家并行:非均匀流量
专家并行引入了不同的通信模式:它将单个词元路由到少数特定的专家。这些专家是位于不同 GPU 上的子神经网络,每个输入仅激活其中少数几个。一个词元可能被分发到专家 3 和专家 12,而这两个专家可能位于不同节点的 GPU 上。
这种设置会导致不规则且突发的通信模式。部分 GPU 可能接收大量词元,而其他 GPU 则基本处于闲置状态。由此产生的流量具有非均匀特性,且随每批数据动态变化。
由于通信行为非确定性,这也增加了系统规划与调试的复杂度。
软件层面需进行大量工作以实现专家间的负载均衡。深度求索分享了其策略与代码[3]:
如 DeepSeek-V3 论文所述,我们采用冗余专家策略对高负载专家进行复制,并通过启发式方法将复制的专家分配至 GPU,确保不同 GPU 间的负载均衡。此外,得益于 DeepSeek-V3 使用的分组限制专家路由(group-limited expert routing)机制,我们尽可能将同组专家部署在同一节点,以减少节点间的数据流量。
3.4 整体协同
每种并行策略本身都对系统有着严苛的要求。后端网络必须同时支撑三种不同类型的压力:
- 全局性的集合通信操作(数据并行)
- 同步链式流(流水线并行)
- 稀疏的、突发性的跨 GPU 调度(专家并行)
这些网络任务会同时发生:激活值在流水线中逐级传递,梯度全还原操作同步启动,而被选定要参与计算的存放着专家模型的 GPU 会主动请求获取它们需要处理的词元数据。后端网络必须能吸纳这种混乱的并发流量,且不降低性能。
04 理解 DeepSeek 的技术突破
理解了 MoE 训练中的网络挑战,我们便能体会 DeepSeek 如何通过精密的系统设计来规避拥塞的深思熟虑。
从其 V3 技术报告中可见:
通过算法、框架与硬件的协同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,实现了计算与通信的近乎完全重叠。这大大提升了训练效率,同时降低了成本,使我们能够在不增加额外开销的前提下进一步扩展模型规模。
他们是如何做到的呢?还记得我们上次探讨的那些计算与通信创新[4]吗?再次引用 DeepSeek 的分享:
为高效训练 DeepSeek-V3,我们实施了精细的工程优化。首先,我们设计了 DualPipe 算法来优化流水线并行。与现有 PP 方法相比,DualPipe 的流水线气泡(译者注:指的是在流水线并行处理中,由于阶段之间未能完全紧密衔接而出现的空闲等待时间,是影响大规模分布式训练效率的关键瓶颈之一。)更少。更重要的是,它通过重叠前后向过程的计算与通信阶段,解决了跨节点专家并行带来的沉重通信开销挑战。其次,我们开发了高效的跨节点全交换通信内核,充分利用 IB 和 NVLink 带宽,并节省专用于通信的流式多处理器资源。最后,我们精细优化了训练期间的显存占用,使得无需使用昂贵的张量并行也能训练 DeepSeek-V3。
其他 AI 实验室必然也在全力攻克网络拥塞难题。尽管它们不像 DeepSeek 那样受限于 H800 的带宽约束,但同样要应对复杂的并行策略与网络压力。不过我们还是要特别向 DeepSeek 致敬,因为他们无私分享了这些技术洞见。
END
本期互动内容 🍻
❓你觉得在未来,是算力会先遇到天花板,还是网络通信会先成为 AI 发展的最大瓶颈?
文中链接
[1]https://developer.nvidia.com/cluster-management
[3]https://github.com/deepseek-ai/EPLB
[4]https://www.chipstrat.com/p/dispelling-deepseek-myths-studying
本文经原作者授权,由 Baihai IDP 编译。如需转载译文,请联系获取授权。
原文链接:
https://www.chipstrat.com/p/gpu-networking-basics-part-2
