DeepSeek 自爆低成本高性能的秘密,展示DeepSeek-V3 如何用 2048 枚 GPU 实现规模化智能 精华

发布于 2025-5-19 01:01
浏览
0收藏

要训练一个性能卓越的 LLM,计算资源是首要门槛。从数千颗 GPU 到优化的内存管理,再到高速网络互连,每个环节都决定着模型的最终表现。传统的 AI 计算架构无法轻松支持如此庞大的计算负载,内存容量不足、计算效率受限、网络带宽瓶颈 成为横亘在 AI 发展道路上的三座大山。

5月14日,DeepSeek-AI 团队发表技术论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》,公布了DeepSeek-V3 相关技术内容,该论文计划在第52届国际计算机架构研讨会(ISCA '25)的工业轨道上发表。

DeepSeek-V3的解决方案便是硬件感知的模型设计(Hardware-Aware Model Design),即让模型结构主动适配底层计算架构,充分利用硬件资源,做到高效推理与低成本训练。这不仅是技术优化,更是一种突破 AI 计算瓶颈的战略性思考。

传统的 AI 训练往往在两种极端之间徘徊:要么依赖强大的硬件集群,成本高昂;要么局限于标准计算资源,模型性能受限。DeepSeek-V3 展示了一种新的路径——软件算法与硬件架构深度协同,使得大型模型的训练和推理在有限资源条件下实现优化。

这一点在 DeepSeek-V3 的多个关键技术中得到了体现:

  • FP8 混合精度训练(FP8 Mixed-Precision Training)降低计算开销,同时提升硬件适配能力。
  • 专家混合模型(MoE)通过激活少量专家参数,大幅提升推理效率。
  • 多令牌预测(MTP)打破自回归推理的单步生成瓶颈,让推理速度更进一步。

在 AI 计算不断升级的时代,仅靠算法优化已经不足够,将 AI 计算架构与硬件深度结合才是可持续的进化方向。

《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》由DeepSeek-AI 研发团队共同完成,成员有Chenggang Zhao, Chengqi Deng, Chong Ruan, Damai Dai, Huazuo Gao, Jiashi Li, Liyue Zhang, Panpan Huang, Shangyan Zhou, Shirong Ma, Wenfeng Liang, Ying He, Yuqing Wang, Yuxuan Liu, Y.X. Wei,涵盖人工智能科学家、深度学习工程师和计算架构专家,在 AI 计算基础设施优化领域拥有深厚的技术积累。

DeepSeek-AI 在过去的 AI 研究浪潮中始终坚持开源创新,他们的 DeepSeek-V3 不仅优化了大型模型训练,还推动了 AI 计算架构的演进,为整个 AI 研究社区提供了重要的技术参考。

论文链接:​​https://arxiv.org/pdf/2505.09343​

1.设计与实现原理

硬件感知的模型架构:软件与硬件协同演进

当 AI 计算迈向更高阶的规模化时,硬件架构与模型设计不再是孤立存在的两个范畴,而是相辅相成的。DeepSeek-V3 采用硬件感知的模型设计理念,即在构建大型语言模型时,主动适配现有计算架构的特点,使其最大化利用底层硬件资源。

DeepSeek 自爆低成本高性能的秘密,展示DeepSeek-V3 如何用 2048 枚 GPU 实现规模化智能-AI.x社区

图1:DeepSeek-V3的基本架构。基于DeepSeek-V2的MLA和DeepSeekMoE,引入了多令牌预测模块和FP8混合精度训练,以提高推理和训练效率。该图显示了架构不同部分计算所使用的精度。所有组件在BF16中进行输入和输出。

具体而言,DeepSeek-V3 在训练和推理过程中,需要处理巨量数据,而传统的 GPU 互连架构存在带宽瓶颈。NVLink 提供更快的 GPU 之间数据交换,PCIe 则用于 CPU-GPU 通信,这两者的平衡决定了推理速度。为了适应 NVLink 带宽受限的挑战,DeepSeek-V3 采用节点限制路由策略,减少跨节点数据传输,提高 GPU 内部数据交换的效率。这一优化策略不仅减少了 IB 传输开销,还提升了专家并行(EP)的计算稳定性。

低精度驱动设计:计算资源的精准利用

AI 计算架构的最大挑战之一是如何降低计算成本,而不牺牲模型质量。DeepSeek-V3 采用FP8 混合精度训练,通过低精度计算减少内存占用,同时保持模型精度。这种策略相比 BF16 减少了一半的内存需求,有效提升计算效率。

FP8 训练也存在局限性,例如:

  • 累积精度受限:Tensor Core 仅保留 13 个尾数位进行累加,可能影响超大规模模型训练的稳定性。
  • 细粒度量化的计算开销:在 Tensor Core 与 CUDA Core 之间,频繁数据传输可能降低计算效率。

为了解决这些问题,DeepSeek-V3 提出了硬件优化建议:

  • 增加 FP8 的累积精度,使其更适用于大模型训练。
  • 让 Tensor Core 直接支持细粒度量化计算,减少数据传输负担。

此外,DeepSeek-V3 还采用LogFMT 低精度通信压缩,用于减少专家并行(EP)的通信数据量。LogFMT 通过对数空间映射优化数据存储,使数据更均匀分布,提高低精度存储能力。这项技术可以大幅降低网络通信成本,提升数据传输的稳定性。

高效内存管理与 KV 缓存优化

Transformer 架构的核心之一是自注意力机制,但它的 KV 缓存开销极大,成为 AI 计算的内存瓶颈。DeepSeek-V3 通过多头潜在注意力(MLA),减少 KV 缓存存储需求,使其更适用于长文本推理。

MLA 技术将多个注意力头的 KV 表示压缩为更小的潜在向量,降低存储占用。相比于传统的 GQA 和 MQA 方法,MLA 能够在保证推理质量的同时,大幅减少 KV 缓存需求。例如:DeepSeek-V3 每个令牌的 KV 存储仅 70 KB,而LLaMA-3.1 405B 需要 516 KB,Qwen-2.5 72B 需要 327 KB。MLA 技术使 DeepSeek-V3 在长文本处理场景下具有更高的可扩展性。

除了 MLA 之外,DeepSeek-V3 还探索了其他 KV 缓存优化策略,例如共享 KV、窗口 KV 和量化压缩。这些技术在内存效率上各有优劣,MLA 方案最终被选为 DeepSeek-V3 的核心优化策略。

专家并行与推理加速:突破 LLM 推理速度瓶颈

深度学习模型在推理时面临计算负担大、推理速度慢的问题。DeepSeek-V3 通过专家混合模型(MoE),只激活部分专家参数,减少计算资源消耗。例如:

  • DeepSeek-V3 具有671B规模的参数,但每个推理令牌仅激活 37B。
  • 相比于 Qwen2.5-72B 和 LLaMA3.1-405B 必须激活所有参数,DeepSeek-V3 的 MoE 架构在计算效率上更具优势。

此外,DeepSeek-V3 还采用多令牌预测(MTP) 技术,解决传统自回归推理的单步生成问题。MTP 通过并行预测多个令牌,使推理速度提高 1.8 倍,而且其预测接受率达到80%-90%,保证推理质量不受影响。

这些优化策略共同构建了 DeepSeek-V3低成本、高效推理 的技术优势,使其能够在有限的计算资源下,依然提供卓越的 AI 模型性能。

2.互连与网络优化解读

硬件互连现状:让 AI 计算更高速、更可扩展

DeepSeek-V3 的成功,离不开对硬件互连架构的深度优化。传统的 AI 计算架构往往受到带宽限制,而 NVIDIA H800 GPU 采用 Hopper 架构,尽管整体计算性能强大,但 NVLink 带宽却从 H100 的 900GB/s 降至 400GB/s,这对大规模推理任务带来了挑战。

DeepSeek 自爆低成本高性能的秘密,展示DeepSeek-V3 如何用 2048 枚 GPU 实现规模化智能-AI.x社区

图2:H800节点互连。

为了弥补 NVLink 带宽下降带来的影响,DeepSeek-V3 采用了 CX7 InfiniBand 网卡,每个节点配置 8×400Gbps IB NIC,以增强 Scale-Out 能力。这种做法意味着即使 NVLink 在单节点内部的带宽受限,集群之间仍然可以通过 IB 高速互连,保持分布式 AI 计算的高吞吐量。换句话说,DeepSeek-V3 在 Scale-Up 受限时,巧妙地通过 Scale-Out 解决问题。

互连驱动设计策略:优化计算并行,加速推理

面对 GPU 互连带宽的挑战,DeepSeek-V3 采用硬件感知的并行计算策略,在训练和推理过程中优化计算任务的分布,确保计算资源的高效利用。

首先,DeepSeek-V3 避免使用 Tensor 并行(TP),因为 TP 依赖NVLink,而 NVLink 带宽下降导致 TP 在大规模训练中效率低下。然而,在推理阶段,TP 仍可被选择性启用,用于降低推理延迟。

与此同时,DeepSeek-V3 强化流水线并行(DualPipe) 计算架构,允许注意力计算和专家选择计算同时进行,减少流水线中的空闲时间,提高 GPU 计算利用率。此外,DeepSeek-V3 还开源了 DeepEP(高效专家并行实现),以优化专家并行(EP)的分布式计算性能,使 AI 计算集群能够更稳定地扩展。

值得注意的是,DeepSeek-V3 采用了节点限制路由策略,利用 NVLink 进行本地 GPU 互连,减少 IB 传输数据量。例如:

  • 每个节点包含 8 GPUs 和 256 个专家,模型会根据TopK Expert Selection规则,将令牌传输至最多4 个目标节点。
  • 在传统 AI 集群中,每个令牌需要跨多个节点传输,而 DeepSeek-V3 通过NVLink 进行本地转发,确保数据尽量在同一节点内传播,从而降低      IB 传输负担,提高数据交换效率。

带宽竞争与低延迟优化:保障数据流动的高效与稳定

在推理任务中,数据流动的稳定性至关重要。然而,DeepSeek-V3 需要同时进行 KV 缓存传输(CPU 到 GPU)和专家并行通信(EP通信),这两者都会大量占用 PCIe 带宽,导致带宽争夺现象。

DeepSeek 自爆低成本高性能的秘密,展示DeepSeek-V3 如何用 2048 枚 GPU 实现规模化智能-AI.x社区

图3:八平面双层脂肪树鳞片网络:每个GPU和IB NIC对属于一个网络平面。跨平面流量必须使用另一个NIC和PCIe或NVLink进行节点内转发。

为了解决这个问题,DeepSeek-V3 采用 动态流量优先级,确保 EP 计算与 KV 传输不会发生严重冲突。此外,在网络层面,DeepSeek-V3 使用IB(InfiniBand)而非 RoCE(RDMA over Converged Ethernet),因为 IB 具有更低的通信延迟。例如:

  • RoCE 同叶交换延迟:3.6μs,RoCE 跨叶交换延迟:5.6μs
  • IB 同叶交换延迟:2.8μs,IB 跨叶交换延迟:3.7μs

DeepSeek 自爆低成本高性能的秘密,展示DeepSeek-V3 如何用 2048 枚 GPU 实现规模化智能-AI.x社区

图4:AllGather和ReduceScatter通信原语在不同路由方法(ECMP、AR、静态路由)和TP维度下的RoCE网络带宽。

可以看到,IB 的延迟比 RoCE 更低,因此DeepSeek-V3 优先选择 IB 作为 AI 计算集群的主要网络通信标准,以确保模型训练和推理任务的低延迟。

此外,DeepSeek-V3 还采用 InfiniBand GPUDirect Async(IBGDA) 技术,优化 GPU-CPU 之间的通信方式:

  • 传统的 GPU-CPU 数据交换需要 先通知 CPU,再由 CPU 向 NIC 发送数据请求,这种做法增加了通信开销。
  • IBGDA 允许 GPU 直接访问 RDMA 设备,跳过 CPU 代理,从而降低通信延迟,提高推理吞吐量。

DeepSeek 自爆低成本高性能的秘密,展示DeepSeek-V3 如何用 2048 枚 GPU 实现规模化智能-AI.x社区

图5:理想的多平面网络:每个NIC都配备了多个物理端口,每个端口都连接到一个不同的网络平面。单个队列对(QP)可以同时利用所有可用端口来传输和接收数据包,这需要对NIC内无序放置的本地支持。

DeepSeek-V3 在硬件互连与网络优化方面采取了一系列针对性措施,从NVLink 带宽优化、IB 高速互连、节点路由策略到 InfiniBand GPUDirect Async 技术,这些设计共同确保了 AI 计算的高效性。

3.未来硬件架构设计思考

提升系统稳健性:AI 计算的容错性与数据可靠性

在大规模 AI 计算环境中,稳健性不仅是系统运行的关键,也是保证长期训练任务稳定性的基础。DeepSeek-V3在架构设计上特别关注两类问题:互连故障与数据损坏。

高性能计算集群往往依赖复杂的网络互连,如InfiniBand、NVLink,这些互连技术的故障可能会导致 GPU 之间的数据传输受阻,进而影响整个 AI 计算任务的进行。同时,单点硬件故障,如GPU 崩溃、ECC 内存错误,也可能导致训练任务中断,甚至让大规模数据丢失,影响模型质量。

DeepSeek-V3 提出的优化方向包括高级错误检测与校验机制,通过硬件冗余设计降低系统故障率。例如,可以采用增强的 ECC来检测多比特翻转问题,同时配合数据完整性校验(Checksum),确保存储数据在长期训练过程中不会发生隐性损坏。此外,DeepSeek-V3 还鼓励标准化诊断工具,让用户可以实时监测硬件健康状态,避免长时间运行导致的不可见错误堆积。

CPU与互连瓶颈改进:突破数据传输与计算性能限制

在 AI 计算架构中,CPU-GPU 之间的数据交换 往往成为系统的瓶颈,尤其是在大规模训练和推理任务中。DeepSeek-V3 采用 NVLink 和 Infinity Fabric作为 CPU-GPU 直连方案,使其能够绕过传统 PCIe 传输瓶颈,提高数据吞吐量。

传统 PCIe 的带宽限制了 GPU 获取CPU 侧 KV 缓存的速度,同时在大规模参数传输(如梯度更新)过程中,会因PCIe 争夺产生显著延迟。采用NVLink 或 Infinity Fabric直连 CPU 与 GPU,可以减少数据在 PCIe 总线上的传输,提高 AI 计算速度。此外,DeepSeek-V3 提出的优化方案之一是提高单核 CPU 的计算频率(>4GHz),确保内核启动任务、网络数据处理等关键计算任务不会因 CPU 计算速度不足而拖慢 AI 计算进程。

在多核架构优化方面,DeepSeek-V3 也提出了多核协同计算的设计思路。例如,在芯粒(Chiplet)架构下,每个独立计算芯片可以拥有多个专属计算核心,分别用于缓存感知任务划分和高效数据隔离。这一优化策略确保 AI 计算在大规模集群中不会因 CPU 计算压力而导致吞吐量下降。

智能网络与自适应互连:让 AI 计算架构更智能

未来的 AI 计算不仅仅是更快、更强,更需要智能化的网络架构来优化数据流动和降低系统故障率。DeepSeek-V3 提出的几项关键优化方向包括集成硅光子、无损网络与智能自适应路由。

硅光子技术(Silicon Photonics)已经被证明在高带宽计算场景下具有极强的优势。DeepSeek-V3 建议未来GPU 互连可以采用光学数据传输技术 来替代传统电子传输,从而降低功耗并提高大规模 AI 计算集群的带宽吞吐量。

此外,DeepSeek-V3 还讨论了无损网络(Lossless Network)的必要性。例如,InfiniBand 采用信用流量控制(CBFC)来确保数据传输不会丢失,但在大规模集群中,无效流量堵塞(HOL Blocking) 仍然会影响系统稳定性。因此,DeepSeek-V3 提倡采用智能拥塞控制(CC)算法,例如基于 RTT 的 CC(RTTCC)或用户可编程 CC(PCC),从而提升 AI数据传输的动态优化能力。

在数据路由方面,DeepSeek-V3 采用动态路由(Adaptive Routing)方案,使 AI 数据流量可以根据实时网络条件自动调整路径,优化全对全(All-to-All)和归约(Reduce-Scatter)计算任务的吞吐率。这种智能数据流动的策略确保即使 AI 计算任务达到超大规模,仍然可以保持稳定的系统响应速度。

内存中心的创新策略:突破 AI 计算架构的核心瓶颈

无论 AI 计算如何进化,内存始终是影响计算效率的核心因素。DeepSeek-V3 提出的两项关键优化方向分别是DRAM 叠层加速器(DRAM-Stacked Accelerators)和System-on-Wafer(SoW)技术。

当前 AI 模型的扩展速度远超高带宽内存(HBM)的发展速度,导致AI 计算的内存瓶颈越来越严重。DeepSeek-V3 提出的DRAM 叠层技术,采用3D 立体集成方式,将 DRAM 直接叠加到 GPU 计算单元上,实现更快的数据交换。这种技术可以有效解决专家混合模型(MoE)中计算-内存之间的带宽问题,提高推理效率。例如SeDRAM架构已经展示了该技术的可行性,其高带宽、低延迟 的特性对 AI 计算极为友好。

此外,DeepSeek-V3 还探索了晶圆级集成(System-on-Wafer,SoW) 的可能性,使计算芯片可以在整个晶圆范围内完成高速数据交互,避免传统单一芯片设计中的数据传输瓶颈。SoW 技术的突破可以为 AI 计算提供更大规模的并行计算支持,推动 AI 计算架构进入更高维度的性能优化。

AI 计算架构的发展,离不开硬件稳健性提升、CPU-互连优化、智能网络架构升级以及内存技术的突破。DeepSeek-V3以硬件感知的设计理念,结合新兴的计算架构优化策略,为大规模 AI 计算提供了一种更加高效、低成本、可扩展的解决方案。

随着 AI 技术的不断演进,如何让计算架构在更智能、更稳定、更低成本的前提下实现突破,将是 AI 产业发展的关键命题。而 DeepSeek-V3 提供的优化方向,不仅是一种工程技术的进步,更是 AI 计算架构演进的长期趋势。未来 AI 计算,或许将因这些创新而迎来新的突破。(END)

参考资料:​​​https://arxiv.org/pdf/2505.09343​

本文转载自​独角噬元兽​,作者:FlerkenS

已于2025-5-19 10:41:03修改
收藏
回复
举报
回复
相关推荐