amei2000go
LV.4
这个用户很懒,还没有个人简介
声望 632
关注 0
粉丝 8
私信
主帖 62
回帖
一、背景笔者之前的文章中详细介绍过NCCL初始化阶段的拓扑建模、通信路径计算和优化等工作,也介绍过一些LLM训练和推理中对NCCL的优化工作。本文中,借着一篇新的论文具体介绍一下NCCL的内部设计原理和运行机制。对应的论文:[2507.04786]DemystifyingNCCL:AnIndepthAnalysisofGPUCommunicationProtocolsandAlgorithms[1]NCCL对应的代码库:GitHubNVIDIAnccl:OptimizedprimitivesforcollectivemultiGPUcommunication[2]二、摘要...
18h前 203浏览 0点赞 0回复 0收藏
​一、背景在此前的内容中,笔者曾介绍过DeepSeek的DeepEP、字节跳动的Flux和Tilelink等系统,这些系统在底层通信实现中均依赖于NVIDIA的NVSHMEM库。事实上,字节跳动后续的诸如Comet、Tritondistributed,以及其他针对细粒度计算与通信重叠(Overlap)优化的工作,也都广泛使用了NVSHMEM。本文将深入剖析NVSHMEM的初始化流程及其核心概念,以便从开发者视角理解其机制,为后续的定制化改造和工程实践打下基础。​也可以参考NVS...
4天前 804浏览 0点赞 0回复 0收藏
一、背景最近看到SemiAnalysis团队制作了一个《AITokenFactoryEconomicsStack》的图片(来自SemiAnalysis(SemiAnalysis)X[1]),深入分析了LLM推理成本链条中各个参与者的成本与利润情况,涵盖从硬件资本支出(Neocloud)、推理服务提供商(InferenceProviders)到终端应用层(Applications)的全栈视角,并且以H200GPU为例,进行定量分析。考虑到之前主要关注整体的CapEx(资本成本)和Opex(运维成本),因此借此机会进一步理...
4天前 314浏览 0点赞 0回复 0收藏
一、背景LLMInference中的数值稳定性问题是一个长期存在的挑战。自从ChatGPT发布以来,关于同样输入下,尽管使用了GreedySearch,输出仍然存在差异的问题就引发了广泛关注。在我们之前的文章中,也曾涉及这一问题。最近,我们注意到一篇新的论文,针对这一问题进行了深入分析和讨论,本文将对其进行简要介绍。对应的论文:[2506.09501]GiveMeFP32orGiveMeDeathChallengesandSolutionsforReproducibleReasoning[1]二、摘要研究表...
2025-06-27 00:25:51 762浏览 0点赞 0回复 0收藏
一、背景笔者之前写过FP8训练的综述文章以及FP4训练和推理的综述文章,本文对其进一步补充,介绍NVIDIA最新的使用MXFP8预训练的方案。对应的论文:[2506.08027]RecipesforPretrainingLLMswithMXFP8[1]二、摘要精度缩放——即在预训练过程中使用更少的比特来表示模型参数及相关Tensor——已成为一种在不牺牲精度前提下提升GPU效率的有效技术。NVIDIA最新BlackwellGPU中引入Microscaling(MX)格式,为Tensor量化提供了细粒度解决方...
2025-06-13 06:57:47 1335浏览 0点赞 0回复 0收藏
一、背景最近华为推出了超节点CloudMatrix384,进一步引发业内对ScaleUp和ScaleOut的广泛讨论。不可避免地也会涉及与NVIDIA超节点NVL72的对比。ScaleUp和ScaleOut各自具有不同的优劣势和局限性。除了扩展性和成本问题外,故障和容错也是一个不可忽略的挑战。本文中,我们介绍一个NVIDIA最近在这一领域的研究工作,着重探讨随着ScaleUp域的扩展,如何应对相应的容错问题。对应的论文为:[2504.06095]NonuniformTensorParallelism...
2025-06-03 06:08:14 1340浏览 0点赞 0回复 0收藏
一、概览1.1引言在大规模分布式训练中,NCCL的拓扑发现和建模是确保高效通信的核心机制,可以帮助建立硬件感知的通信优化,比如充分利用异构带宽,避免通信成为瓶颈,会直接影响训练的性能和扩展性。对应的核心代码位于:init.cc:ncclsrcinit.ccatmaster·NVIDIAnccl·GitHub[1]topo.cc:ncclsrcgraphtopo.ccatmaster[2]1.2NCCL初始化拓扑建模如下图所示为NCCL初始化时拓扑相关的核心流程,主要负责系统拓扑发现、路径建模、设...
2025-05-20 06:28:48 1788浏览 0点赞 0回复 0收藏
一、背景在之前的系列文章中,笔者已经系统性地介绍过大规模LLM训练面临的各种挑战以及可能涉及的问题和解决方案。在对大规模任务进行Profiling分析的时候,面对成千上万的kernel也经常苦不堪言,想要通过统计分析来诊断相应的问题,并为优化提供更多的可能性。碰巧看到了字节跳动Seed的这篇文章,虽然社区内没有看到太多讨论,不过其确实与我们的一些思路不谋而合,这里进行简单介绍。其实文章中的大部分结论性内容笔者在之前...
2025-05-20 06:24:53 1656浏览 0点赞 0回复 0收藏
一、背景大模型,如大语言模型(LLM)和大型多模态模型(LMM),正在改变自然语言处理和多模态任务的格局。然而,这些模型的Inference过程面临大计算、大内存、高时延等诸多挑战。为了应对这些问题,分布式分离Inference系统应运而生,旨在通过将模型的不同部分分开处理来优化性能。大体来说,大模型Inference经历了从单体到分布式,再到分离式的演进,并在继续发展中:1.单体Inference阶段(2020年前):模型完整加载至单个设...
2025-05-07 00:27:19 2475浏览 0点赞 0回复 0收藏
一、背景此前笔者对AIAgent研究的涉猎比较少,也基本没有系统介绍过与Agent相关的内容。然而,最近由Anthropic提出的MCP(ModelContextProtocol[1],模型上下文协议)在社区中引发广泛关注,笔者也趁此机会“蹭蹭热度”,了解下MCP到底是什么,了解一下MCP的基本概念和工作机制。在最初接触MCP时,也曾对其一些设计感到困惑。于是带着这些疑问进行了进一步的调研,逐渐对MCP的组成及运作方式有了初步的认识,比如:MCP中的Resou...
2025-04-22 06:51:21 4488浏览 0点赞 0回复 0收藏
一、背景在大规模分布式训练场景中,计算和通信的重叠(Overlap)一直是一个关键的研究热点。随着硬件性能的提升,计算能力和通信带宽之间的差距日益显著。如下图所示,硬件算力每2年大约扩大3x,而通信带宽每2年只提升1.4x,这种差距带来的影响在大规模训练任务中愈加明显。例如,在使用H100和A100集群进行LLM训练时,H100的通信开销占比通常会高于A100。这种情况下,通信可能成为了系统性能的瓶颈,因此,如何在计算和通信之...
2025-04-09 06:48:28 2249浏览 1点赞 0回复 1收藏
一、背景笔者之前的文章(万字综述LLM训练中的Overlap优化:字节Flux等7种方案)中详细介绍过各种计算与通信Overlap的方案,这里进一步介绍字节最近发表的TileLink,其中提到的大部分工作已经包含在我们之前的综述中,建议优先阅读,比如CoCoNet、Centauri、Flux等。对应的论文:[2503.20313]TileLink:GeneratingEfficientComputeCommunicationOverlappingKernelsusingTileCentricPrimitives[1]二、摘要大规模深度学习模型通常...
2025-04-09 06:45:50 2890浏览 0点赞 0回复 0收藏
一、背景最近几天Google发布了最新的Gemma3系列开源模型,迅速成为业界热议的焦点,其中,Gemma327BIT模型尤为引人注目。如下图所示为Google广泛宣传的Gemma327BIT模型在ChatbotArenaLeaderboard[1]上的表现,以27B的参数量,不仅超越了更大参数量的DeepSeekV3(实际激活参数量差不多),并且接近顶尖的DeepSeekR1。事实上性能真的这么“炸裂”吗?还是面向ChatbotArena的优化?值得注意的是,ChatbotArena的排名基于用户盲测投...
2025-03-27 07:18:03 2611浏览 0点赞 0回复 0收藏
一、背景DeepSeekV3R1模型的发布,以及AIInfra相关代码库的开源,对大模型从业者产生了不容忽视的影响。从短期来看,这些工作确实推动了业界对AIInfra建设的关注,至少促使人们开始重视算法与Infra的协同设计。这一变化也看似提升了Infra团队在整个大模型生成链路的话语权,但也为相关从业者带来了更大的学习压力与追赶挑战,甚至看到一些公司或团队因而重新审视了原有的发展规划。近期,我依然保持阅读了一些相关文章,但由于...
2025-03-17 00:52:51 2227浏览 0点赞 0回复 0收藏
一、引言DeepSeek从2024年01月到2025年01月发布了一系列模型,其中最主要的就是语言系列模型,这个文档中我们会对语言模型涉及的关键技术进行具体介绍:语言模型:DeepSeekV1、MoE、V2、V3。多模态模型:DeepSeekVL1、VL2、Janus。数学、代码、Reasoning模型:DeepSeekMath、Coder、CoderV2、R1。如下图所示,图中我们汇集了DeepSeekV1、MoE、V2、V3、R1系列模型中的关键技术点;此外,也补充了DeepSeekA100和H800GPU集群的关键...
2025-03-05 10:11:27 6266浏览 1点赞 0回复 1收藏
一、背景最近几天DeepSeek的NSA以及Moonshot的MoBA受到广泛关注,我也在第一时间看了相关论文。由于最近DeepSeek的火爆,各大平台上也出现了非常多对这两篇文章的介绍,这里不再赘述其袭击,只是简单陈述一下我的一些思考和看法。在看这两篇论文的时候,我们可以发现其很多观点和手段都似曾相识,其他在之前的Quest、SeerAttention(之前也分享过)等论文都有相关介绍。不过,其在工业落地方面提供了更多的可能性,比如Moonshot...
2025-02-24 11:18:18 2297浏览 0点赞 0回复 0收藏
一、背景上一篇文章中我们具体介绍了DeepSeekR1系列模型的构建流程和关键技术点,考虑到最近出现了许多相关工作,也分别得出了各种不同的结论,与此同时还出现了大量的误解。本文中,我们整理了DeepSeekR1等6篇Reasoning相关文章的关键结论,以便相互验证和对比。如下图所示为这些文章中的一些关键指标:相关工作可以参考我们之前的文章:​​​DeepSeekR1论文解读&关键技术点梳理​​​​​​DeepSeekV3详细解读:模型&Infra建...
2025-02-14 14:07:41 2832浏览 0点赞 0回复 0收藏
一、背景本文中我们继续介绍小红书用于多模态场景笔记推荐的NoteLLM2。对应的论文为:[2405.16789]NoteLLM2:MultimodalLargeRepresentationModelsforRecommendation[1]二、摘要LLM在文本理解方面展现了卓越能力,现有研究也已探讨了其在文本Embedding任务中的应用,然而,利用LLM辅助多模态表征任务的研究尚不多见。本文作者旨在探索LLM在多模态ItemtoItem(I2I)推荐中增强多模态表征的潜力。如下图Figure1所示,一种可行的方...
2025-02-06 15:23:53 2747浏览 0点赞 0回复 0收藏
一、背景最近“TikTok难民”涌入小红书,“小红书霸榜苹果AppStore”等话题受到广泛关注,字节跳动的Lemon8也不相上下。当然,作为一个技术公众号,我们这里并不是要讨论这一现象,而是要介绍小红书的NoteLLM,其主要用于小红书中的笔记推荐和标签生成。对应的论文为:[2403.01744]NoteLLM:ARetrievableLargeLanguageModelforNoteRecommendation[1]有关LLM在搜广推场景的应用落地也可以参考我们之前的文章:​​​字节HLLM:大...
2025-01-22 13:17:01 6551浏览 0点赞 0回复 0收藏
一、背景我们在之前的文章中详细分析过GQA相比MHA的推理优势(省显存、计算强度高),不过GQA有可能导致精度的损失,因此早期的一些不太大的LLM会使用MHA。针对这个问题有两种优化思路:将MHA转换为GQA,长短序列都适用。在长序列场景使用Token稀疏化方案或者结合投机采样策略。​本文中我们介绍一个将MHA转换为GQA的工作,不过论文的实验还偏少,效果也不是非常好;此外,最新的模型基本都在预训练阶段默认采用GQA(LLaMA38B、...
2025-01-13 11:35:18 2823浏览 0点赞 0回复 0收藏
获得成就
已积累 6.2w 人气
获得 7 个点赞
获得 5 次收藏