amei2000go
LV.3
这个用户很懒,还没有个人简介
声望 376
关注 0
粉丝 2
私信
主帖 33
回帖
一、背景本文中我们介绍一下最近被NeurIPS2024接收为OralPresentation的LLM量化工作DuQuant。这是一种令旋转变换和排列变换来更有效地缓解MassiveOutlier和NormalOutlier的新方法。其达到了4bit量化的新SOTA。具体来说:作者发现LLM的FFN模块中,在downproj的输入中存在明显的MassiveOutlier;这种Outlier不同于以往发现的Outlier,表现为绝对值大于几百的个别异常值;这些Outlier会显著限制4bit权重激活量化方法的性能。作者提...
4天前 96浏览 0点赞 0回复 0收藏
一、背景之前看过部分MegatronLM的源码,也详细分析过对应的Dataset和DataLoader,想当然的认为在LLM预训练时会使用DocumentLevel的Mask,也就是常说的SamplePacking技术。最近我们在做长序列训练相关工作时发现并非如此,并且出现了一些很奇怪的性能问题,因此重新看了相关工作,并进行了部分实验。SamplePacking中有很多可以讨论的技术点,比如Attention的实现和优化,Sample的组合及负载均衡问题(有点类似调度问题)以及不...
6天前 163浏览 0点赞 0回复 0收藏
一、背景我们之前已经分享过几篇关于SamplePacking相关的文章,也提到了其中的性能优化问题。最近今天又看到一篇新的论文,这里进行简单介绍。对应的论文为:[2410.08081]PackingAnalysis:PackingIsMoreAppropriateforLargeModelsorDatasetsinSupervisedFinetuning相关工作可以参考我们之前的文章:SamplePacking:长序列LLM训练的Attention问题及优化SamplePacking综述:LLM效果与效率的TradeoffBinaryBlockMasking:加快稀疏A...
2024-10-17 15:49:18 176浏览 0点赞 0回复 0收藏
一、背景前段时间Meta发布了对标OpenAISORA和快手可灵的视频生成模型MovieGen,这里我们进行相关的技术解读。本文主要聚焦在其图像和视频生成模型部分,进行详细介绍;然后对视频个性化、编辑和音频生成进行简单概述。对应的论文:MovieGen:ACastofMediaFoundationModels对应的Blog:HowMetaMovieGencouldusherinanewAIenablederaforcontentcreators更多的Video:MetaMovieGen我们在之前的文章中也详细介绍过各种文生图相关的技...
2024-10-14 15:01:46 282浏览 0点赞 0回复 0收藏
一、背景本文我们继续介绍一个针对超长上下文的LLM推理加速工作,同样是Token稀疏化的方案,来解决LLM在超长序列场景计算量大、GPU显存消耗大的问题,不过结合了ANN检索,可以实现更高的精度。对应的论文为:[2409.10516]RetrievalAttention:AcceleratingLongContextLLMInferenceviaVectorRetrieval二、摘要本文中作者提出了RetrievalAttention,无需训练就可以加速Attention计算。为了利用Attention的动态稀疏特性,RetrievalA...
2024-10-11 16:01:15 166浏览 0点赞 0回复 0收藏
一、背景我们之前的文章中介绍过Character.AI的LLM推理最佳实践,其在1年多的时间里将推理成本降低了33倍。其中一个关键技术是对KVCache的跨层共享以及与LocalAttention的结合。本文我们介绍MixAttention,其思路和上述方案完全一致,不过针对长文本场景做了更多实验和调整。对应的论文为:[2409.15012]InferenceFriendlyModelsWithMixAttentionLLM稀疏化相关工作可以参考:​​SnapKV:KVCache稀疏化,零微调加速长序列LLM推理...
2024-10-08 16:03:34 251浏览 0点赞 0回复 0收藏
一、背景我们在之前的文章中简单介绍了SamplePacking相关的技术方案及涉及的问题,也在看其中Attention计算带来的各种挑战。机缘巧合正好看到一篇文章试图解决相应的Attention计算问题,这里进行简单介绍。对应的论文为:[2409.15097]EfficientlyDispatchingFlashAttentionForPartiallyFilledAttentionMasks相关工作可以参考我们之前的文章:​​SamplePacking:长序列LLM训练的Attention问题及优化​​​​SamplePacking综述:...
2024-09-30 15:18:21 381浏览 0点赞 0回复 0收藏
本文中我们通过几篇论文来具体介绍SamplePacking相关的方案和对应的各种问题,比如GraphCore的PackedBert、Meta的InContextPretraining、智谱AI的LongAlign、Amazon的FewerTruncations以及IBM的PackingwithFlashAttention。一、背景上一篇文章(​​​SamplePacking:长序列LLM训练的Attention问题及优化​​)中我们简单介绍了SamplePacking相关的问题和部分简单实验。本文中我们通过几篇论文来具体介绍SamplePacking相关的方...
2024-09-26 16:25:34 397浏览 0点赞 0回复 0收藏
​一、背景幻方AI团队发布了一系列DeepSeek大模型,比如DeepSeekV2、DeepSeekMath、DeepSeekCoder等。在DeepSeekV2中提出的MLA(MultiheadLatentAttention)也广受好评。此外,DeepSeekV2在强大性能的情况下还将API定价降低到GPT4的百分之一,被称为“价格屠夫”,也由此引发大模型API的价格战。本文中我们介绍一下幻方AI训练DeepSeek系列模型使用的大规模GPU集群以及相应的各种优化手段。对应的论文为:[2408.14158]FireFlyerA...
2024-09-19 12:55:44 1116浏览 0点赞 0回复 0收藏
一、背景我们之前介绍过一些LLM模型融合或堆叠的方案,然而这些方案通常需要人工设计或者继续训练、微调,这里我们介绍一篇新的工作试图解决这些问题,其思路很有意思,为后续的模型生产提供了一条思路,也得到了意想不到的结果。需要说明的是,虽然开源了代码,单开源代码中并没有开放如何合并的代码,导致合并的细节无法获知。此外,相应的代价有多高也没有具体介绍,比如评估成本。对应的论文为:[2403.13187]EvolutionaryOp...
2024-09-12 11:34:29 383浏览 0点赞 0回复 0收藏
一、背景之前的文章中我们详细介绍了大规模分布式训练中的数据并行(DataParallelism,DP)、张量并行(TensorParallelism,TP)和流水线并行(PipelineParallelism,PP)。这篇文章中我们继续介绍MoE中经常使用的专家并行(ExpertParallelism,EP),以及EP中涉及的相关All2All操作和优化手段等。二、引言2.1标准All2AllAlltoAll是集合通信库(比如NCCL)中另一种常见的通信原语,用于多个设备之间进行数据交换。AlltoAlll操作...
2024-09-10 12:22:38 1178浏览 0点赞 0回复 0收藏
一、背景本文中我们继续介绍另一种非常常见的并行方案——流水线并行(PipelineParallelism)。二、MicrosoftPipelinedBP2.1摘要我们在之前的文章中提到过,2012:ImageNetClassificationwithDeepConvolutionalNeuralNetworks中使用TensorParallelism在2个GPU上训练AlexNet。同一年,微软的研究者开始使用PipelineParallelism训练语音识别模型CDDNNHMM(ContextDependentDeepNeuralNetworkHMM)。首先,作者提出了CDDNNHMM模型,...
2024-09-09 00:51:44 510浏览 0点赞 0回复 0收藏
一、背景本文中我们继续介绍分布式训练中的张量并行(TensorParallelism,TP),包括AlexNet、Google、Facebook、NVIDIA以及ColossalAI的一系列TensorParallelism方案。涉及1DTP,2D和3DTP,也包含行切分和列切分等。这里说的TensorParallelism和ZeroDP以及PytorchFSDP中的模型切分方式不一样,ZeroDP和FSDP中的模型切分在实际使用的时候还会将相应的参数AllGather到当前设备,使用全部的参数进行计算。而TensorParallelism中的...
2024-09-03 12:17:14 590浏览 0点赞 0回复 0收藏
一、背景模型剪枝、蒸馏是传统AI模型压缩常用的方案,尤其是模型要用于端侧部署的场景,相比模型量化,模型剪枝和蒸馏的代价比较高,而且往往在指标上也没有特别明显的优势,因此真正落地的场景要少得多。当然,也传言有些模型会蒸馏OpenAI的ChatGPT,不过主要是用其生成高质量数据。本文中,我们介绍NVIDIA最近发布的LLM剪枝和蒸馏的最佳实践。对应的论文为:[2408.11796]LLMPruningandDistillationinPractice:TheMinitronAppr...
2024-08-27 13:14:35 728浏览 0点赞 0回复 0收藏
一、背景模型越来越大,需要的GPU越来越多;与此同时GPU性能也在不断增强,配套的网络带宽也不断增加到400G(BlackwellGPU甚至需要到800Gbps)。Ranking模型还在迁移到GPU的早期阶段,但使用GPU的规模也在不断增加;而LLM通常需要使用更大规模GPU。在构建这种规模的网络的同时保持高性能GPU间通信很有挑战。Meta在其LLaMA3技术报告中简单提到用于训练LLaMA3的大规模GPU集群,不过在报告中并没有详细介绍其集群的构成以及相应的...
2024-08-20 11:26:36 950浏览 0点赞 0回复 0收藏
一、背景之前我们已经总结过FP8的发展历程,以及其在大规模语言模型(LLM)训练和推理中的应用。如今,FP8推理几乎已经成为行业共识,许多LLM推理框架已经支持FP8推理,且多家公司也开源了相应的FP8模型。例如,Meta在最近发布的LLaMA3技术报告中就提到了FP8推理的应用。FP8推理相比INT8推理的最大优势在于其后训练量化(PTQ,PostTrainingQuantization)能够获得几乎无损的精度,同时显著提升推理速度。例如,相比FP16,在NVID...
2024-08-09 16:50:53 581浏览 0点赞 1回复 0收藏
一、背景最近,SGLang引起了广泛关注,出现了许多“SGLang吊打vLLM和TRTLLM”的言论。不得不说,SGLang确实是一项非常出色的工作。与此同时,vLLM的性能问题和TRTLLM的易用性问题也广受诟病,但是在实际应用中,我们仍然需要保持理性。比如,已经使用了LMDeploy或TRTLLM,是否要在当前阶段切换到SGLang;SGLang在对应的场景是否一定有这么大的提升?不过,本文中并非要介绍SGLang,而是旨在探讨vLLM的基石——PagedAttention的...
2024-08-05 01:13:23 1164浏览 0点赞 0回复 0收藏
一、背景本文中我们继续介绍一种LLM推理优化相关的工作,通过路由的方式组合多个模型;其与投机采样类似,通过多个不同规模和性能的模型组合来降本增效,然而又有本质的区别。投机采样在一个Query内会反复调用大小模型,而路由方式在调用之前已经确定好需要调用哪个模型,直到调用结束。目前常见有两种路由的范式:按意图路由:与传统意图识别思路类似。其思路是虽然小模型可能整体实力不如大模型,但是在某些垂类可能与大模型...
2024-07-29 01:06:44 1077浏览 0点赞 0回复 0收藏
一、背景介绍LLM的模型参数量很大,其模型效果也需要巨大的语料库支撑,LLM预训练需要的Token数已经从早期的300BToken逐渐增加到1.4T,甚至进一步扩展到3T以上。本文中我们具体介绍LLM预训练语料库的来源,构建语料库的预处理过程以及LLM预训练的Dataset存储、混合、加载方式。二、常见语料库虽然不同LLM的模型大小不同,预训练的Token数也各不一样,但是其原始的语料都大同小异,主要有几种类型:CommonCrawl、Wikipedia、Book...
2024-07-22 10:40:24 1166浏览 0点赞 0回复 0收藏
一、背景随着ChatGPT的横空出世,LLMAIGC领域迎来空前的关注,各类大模型如雨后春笋般出现,科技公司对AI算力的需求也呈爆发式增长。在这样的背景下,如何在有限资源内提升模型训练和推理效率成为研究的热点。而在众多的方向中FP8逐渐成为研究热点,FP8的应用落地也是一个极具潜力的方向。FP8的重要性日益凸显,很大程度上得益于NVIDIAHopper架构和AdaLovelace架构对FP8的硬件支持。最新发布的Blackwell架构更是进一步拓展了低...
2024-07-19 10:56:57 3124浏览 0点赞 0回复 0收藏
获得成就
已积累 8025 人气
获得 1 个点赞
获得 0 次收藏