AI Infra—如何从 LLM training 转 Inference 原创

发布于 2025-5-13 06:42
浏览
0收藏

LLM training转inference需要加强的知识总结。

这篇附带一些职业规划的讨论,其实Training 和 Inference 在不同公司不同岗位业务中的定位不同,但总得来说还是存在下面的区别:

  • LLM Training:包括但不限于优化模型架构(MoE),调节超参数优化loss,训练微调(SFT, pretrain,RL,蒸馏)等等,这个是把模型训得更聪明的过程。
  • LLM Inference:包括PD分离(KV cache 优化,  Page attention,Radix attention), 并行(各种parallelism, sharding),通信(NCCL),推理加速(量化),生成稳定性监控等等,这个是训完模型以后,能让模型跑得效果更好,也就是更快更稳定的过程。

先忽略Training和Inference这两类型的目前招聘岗位的特点和要求(当然大佬可能两方面都特别强), 本篇主要介绍从training转infra需要加强哪些方面的内容,如何入手。

下面是一个快捷目录。

1. 分布式系统

2. 推理加速

一、分布式系统

目前大家见到过的并行训练算法,包括但不限于DP,MP,PP,TP,SP/CP,EP等,分别是:

  • 数据并行(Data Parallel, DP)
  • 模型并行(Model Parallel, MP),又可以包括:

     a.张量并行(Tensor Parallel, MP)

     b.Pipeline并行(Pipeline Parallel, PP)

     c.Sequence并行(Sequence Parallel, SP,也可以叫Context Parallel, CP)

  • Zero Redundancy Data Parallelism (ZeRO)
  • Expert 并行(Expert Parallel, EP)

关于分布式系统,​​​大模型面经—分布式训练指南​​​这篇中有详细介绍,这里着重讲一下Expert 并行。

Expert Parallelism(EP)是针对MoE模型训练的特有并行方式,并且可以无冲突跟3D Parallelism结合。

MoE会在Transformer每层配置多路专家FFN网络,再由路由动态选择专家并行处理不同输入,使每个token只经过部分专家,显著降低FLOPs并保持模型容量。EP就是将每层中的所有专家划分到不同的设备(GPU/TPU)上。比如16个专家分配8张卡,每卡持有2个专家。

因此在MoE的训练中,使用 EP 不会减少数据并行 (DP) 的数量,因为每个 EP 处理不同的数据。

二、推理加速

这块的话主要还是PD分离的内容,就是把推理的预填充阶段(P)和解码(D)阶段分离,对两阶段分别优化,提升GPU利用率减少延迟。

下面是当前一些常见推理框架的总结。

AI Infra—如何从 LLM training 转 Inference-AI.x社区


图片来源


​http://xhslink.com/a/eGufxsVnYvbcb​

想要入手可以推荐把Ray,vLLM或是sglang系统性的刷一遍。

刷一遍之后,大家可以做一个个人项目可以结合sglang的开源社区,根据自己的深度思考建立一个自己的项目,去尝试优化PD分离的架构,比如如何优化KV Cache Pool, P和D如何进行更优的负载均衡设计等等。

其实Training 和Inference 在实际岗位中已经密不可分了,未来最抢手的大概率是既懂Training又懂推理优化的,大家一起卷卷吧~


本文转载自瓦力算法学研所,作者:喜欢瓦力的卷卷


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-5-13 06:42:35修改
收藏
回复
举报
回复
相关推荐