美团 Flash Communication:LLM 推理的 AllReduce 通信优化
精华
一、背景前段时间的文章里我们刚刚介绍过两个对LLM分布式推理场景中AllReduce的优化工作,一个是NVIDIATensorRTLLM中的MultiShot无损优化,另一个是Recogni提出的基于量化压缩实现的AllReduce加速方案。本文中我们继续介绍美团新发表的AllReduce量化压缩优化方案。对应的论文为:[2412.04964]FlashCommunication:ReducingTensorParallelizationBottleneckforFastLargeLanguageModelInference[1]二、摘要随着LLM规模的不断增长,...