amei2000go
LV.4
这个用户很懒,还没有个人简介
声望 659
关注 0
粉丝 10
私信
主帖 67
回帖
一、背景我们在之前的文章中已经介绍过很多对大规模AI集群建设和维护相关相关的文章,包含Meta、阿里、IBM、ImbueAI、字节、上海AIlab等等。今天简单介绍一篇新的文章,其相对比较简单,主要关注GPU异常,与我们之前介绍万卡集群运维中的Case高度重合,但也有一些不一样的地方,就当简单回顾。对应的论文为:[2503.11901]CharacterizingGPUResilienceandImpactonAIHPCSystems[1]二、摘要论文对NCSADeltaAI集群(算力超过600PFLO...
2025-08-18 06:41:57 759浏览 0点赞 0回复 0收藏
一、背景随着LongReasoning领域的快速发展,最近涌现出了诸多Reasoning模型,比如DeepSeekR1、DeepSeekR1Distill以及阿里的QwQ32B模型。这些模型在处理复杂任务时表现卓越,但与此同时,我们也观察到一些值得关注的现象。部分用户在不必要的场景下盲目使用Reasoning模型,导致大量不必要的CoTToken被引入,直接推高了Inference成本。笔者在之前的CoTValve介绍文章中提到过:“LongCoT模型通常需要更长的Token序列,这会显著增加...
2025-08-18 06:32:29 1400浏览 0点赞 0回复 0收藏
一、背景Meta赶在清明节期间发布了LLaMA4模型,目前看着比较仓促,官方Blog信息比较混乱,也没有发表技术报告,我们这里先根据官方Blog梳理相应的信息。PS:Meta确实在PR中使用了一些常见的手段,比如避重就轻,扬长避短,但是个人感觉还不至于出现在后训练中刻意混入评估集这种情况。LLaMA3.1的技术报告很全面,笔者之前也做过深度解读,期待Meta早日发表LLaMA4技术报告,展示更多相关细节内容。对应的官方Blog为:TheLlama4he...
2025-08-18 06:29:23 1120浏览 0点赞 0回复 0收藏
一、引言LLM的Training与Inference存在很多共性,但也有极大的不同,LLMInference涉及的变量会更加复杂,需要采用的方案也会存在明显区别,比如::不同的模型:通常不会使用单一模型解决所有问题,可能有不同规模、类型的模型,不同垂直场景的模型等。异构硬件环境:在Inference场景可选择的GPU设备远多于Training场景,比如可以使用A100、H100、B200,也可以采用H20、L40S、A30、T4,甚至可以选择RTX5090、4080、3070等。复杂...
2025-08-04 00:57:59 931浏览 0点赞 0回复 0收藏
​一、引言本文主要聚焦于大语言模型预训练相关阶段的技术和行业最新进展,其中包括常见的分布式策略、模型结构、常见的优化手段等。考虑到篇幅原因,暂不包含后训练、多模态等领域。二、模型结构2.1概述当前LLM基本上都是DecoderOnly的Transformer模型,只不过都会进行一些修改。比如对Attention的修改衍生出来SoftmaxAttention系列和LinearAttention系列。而对FFN的修改衍生出了Dense模型和MoE模型。这个章节我们对这些模型结...
2025-08-04 00:49:43 1296浏览 0点赞 0回复 0收藏
一、背景笔者之前的文章中详细介绍过NCCL初始化阶段的拓扑建模、通信路径计算和优化等工作,也介绍过一些LLM训练和推理中对NCCL的优化工作。本文中,借着一篇新的论文具体介绍一下NCCL的内部设计原理和运行机制。对应的论文:[2507.04786]DemystifyingNCCL:AnIndepthAnalysisofGPUCommunicationProtocolsandAlgorithms[1]NCCL对应的代码库:GitHubNVIDIAnccl:OptimizedprimitivesforcollectivemultiGPUcommunication[2]二、摘要...
2025-07-15 09:22:49 3063浏览 0点赞 0回复 0收藏
​一、背景在此前的内容中,笔者曾介绍过DeepSeek的DeepEP、字节跳动的Flux和Tilelink等系统,这些系统在底层通信实现中均依赖于NVIDIA的NVSHMEM库。事实上,字节跳动后续的诸如Comet、Tritondistributed,以及其他针对细粒度计算与通信重叠(Overlap)优化的工作,也都广泛使用了NVSHMEM。本文将深入剖析NVSHMEM的初始化流程及其核心概念,以便从开发者视角理解其机制,为后续的定制化改造和工程实践打下基础。​也可以参考NVS...
2025-07-11 07:30:29 3963浏览 0点赞 0回复 0收藏
一、背景最近看到SemiAnalysis团队制作了一个《AITokenFactoryEconomicsStack》的图片(来自SemiAnalysis(SemiAnalysis)X[1]),深入分析了LLM推理成本链条中各个参与者的成本与利润情况,涵盖从硬件资本支出(Neocloud)、推理服务提供商(InferenceProviders)到终端应用层(Applications)的全栈视角,并且以H200GPU为例,进行定量分析。考虑到之前主要关注整体的CapEx(资本成本)和Opex(运维成本),因此借此机会进一步理...
2025-07-11 07:20:46 1116浏览 0点赞 0回复 0收藏
一、背景LLMInference中的数值稳定性问题是一个长期存在的挑战。自从ChatGPT发布以来,关于同样输入下,尽管使用了GreedySearch,输出仍然存在差异的问题就引发了广泛关注。在我们之前的文章中,也曾涉及这一问题。最近,我们注意到一篇新的论文,针对这一问题进行了深入分析和讨论,本文将对其进行简要介绍。对应的论文:[2506.09501]GiveMeFP32orGiveMeDeathChallengesandSolutionsforReproducibleReasoning[1]二、摘要研究表...
2025-06-27 00:25:51 1444浏览 0点赞 0回复 0收藏
一、背景笔者之前写过FP8训练的综述文章以及FP4训练和推理的综述文章,本文对其进一步补充,介绍NVIDIA最新的使用MXFP8预训练的方案。对应的论文:[2506.08027]RecipesforPretrainingLLMswithMXFP8[1]二、摘要精度缩放——即在预训练过程中使用更少的比特来表示模型参数及相关Tensor——已成为一种在不牺牲精度前提下提升GPU效率的有效技术。NVIDIA最新BlackwellGPU中引入Microscaling(MX)格式,为Tensor量化提供了细粒度解决方...
2025-06-13 06:57:47 4361浏览 0点赞 0回复 0收藏
一、背景最近华为推出了超节点CloudMatrix384,进一步引发业内对ScaleUp和ScaleOut的广泛讨论。不可避免地也会涉及与NVIDIA超节点NVL72的对比。ScaleUp和ScaleOut各自具有不同的优劣势和局限性。除了扩展性和成本问题外,故障和容错也是一个不可忽略的挑战。本文中,我们介绍一个NVIDIA最近在这一领域的研究工作,着重探讨随着ScaleUp域的扩展,如何应对相应的容错问题。对应的论文为:[2504.06095]NonuniformTensorParallelism...
2025-06-03 06:08:14 2586浏览 0点赞 0回复 0收藏
一、概览1.1引言在大规模分布式训练中,NCCL的拓扑发现和建模是确保高效通信的核心机制,可以帮助建立硬件感知的通信优化,比如充分利用异构带宽,避免通信成为瓶颈,会直接影响训练的性能和扩展性。对应的核心代码位于:init.cc:ncclsrcinit.ccatmaster·NVIDIAnccl·GitHub[1]topo.cc:ncclsrcgraphtopo.ccatmaster[2]1.2NCCL初始化拓扑建模如下图所示为NCCL初始化时拓扑相关的核心流程,主要负责系统拓扑发现、路径建模、设...
2025-05-20 06:28:48 3279浏览 0点赞 0回复 0收藏
一、背景在之前的系列文章中,笔者已经系统性地介绍过大规模LLM训练面临的各种挑战以及可能涉及的问题和解决方案。在对大规模任务进行Profiling分析的时候,面对成千上万的kernel也经常苦不堪言,想要通过统计分析来诊断相应的问题,并为优化提供更多的可能性。碰巧看到了字节跳动Seed的这篇文章,虽然社区内没有看到太多讨论,不过其确实与我们的一些思路不谋而合,这里进行简单介绍。其实文章中的大部分结论性内容笔者在之前...
2025-05-20 06:24:53 2924浏览 0点赞 0回复 0收藏
一、背景大模型,如大语言模型(LLM)和大型多模态模型(LMM),正在改变自然语言处理和多模态任务的格局。然而,这些模型的Inference过程面临大计算、大内存、高时延等诸多挑战。为了应对这些问题,分布式分离Inference系统应运而生,旨在通过将模型的不同部分分开处理来优化性能。大体来说,大模型Inference经历了从单体到分布式,再到分离式的演进,并在继续发展中:1.单体Inference阶段(2020年前):模型完整加载至单个设...
2025-05-07 00:27:19 4799浏览 0点赞 1回复 0收藏
一、背景此前笔者对AIAgent研究的涉猎比较少,也基本没有系统介绍过与Agent相关的内容。然而,最近由Anthropic提出的MCP(ModelContextProtocol[1],模型上下文协议)在社区中引发广泛关注,笔者也趁此机会“蹭蹭热度”,了解下MCP到底是什么,了解一下MCP的基本概念和工作机制。在最初接触MCP时,也曾对其一些设计感到困惑。于是带着这些疑问进行了进一步的调研,逐渐对MCP的组成及运作方式有了初步的认识,比如:MCP中的Resou...
2025-04-22 06:51:21 5713浏览 0点赞 0回复 0收藏
一、背景在大规模分布式训练场景中,计算和通信的重叠(Overlap)一直是一个关键的研究热点。随着硬件性能的提升,计算能力和通信带宽之间的差距日益显著。如下图所示,硬件算力每2年大约扩大3x,而通信带宽每2年只提升1.4x,这种差距带来的影响在大规模训练任务中愈加明显。例如,在使用H100和A100集群进行LLM训练时,H100的通信开销占比通常会高于A100。这种情况下,通信可能成为了系统性能的瓶颈,因此,如何在计算和通信之...
2025-04-09 06:48:28 2891浏览 1点赞 0回复 1收藏
一、背景笔者之前的文章(万字综述LLM训练中的Overlap优化:字节Flux等7种方案)中详细介绍过各种计算与通信Overlap的方案,这里进一步介绍字节最近发表的TileLink,其中提到的大部分工作已经包含在我们之前的综述中,建议优先阅读,比如CoCoNet、Centauri、Flux等。对应的论文:[2503.20313]TileLink:GeneratingEfficientComputeCommunicationOverlappingKernelsusingTileCentricPrimitives[1]二、摘要大规模深度学习模型通常...
2025-04-09 06:45:50 4088浏览 0点赞 0回复 0收藏
一、背景最近几天Google发布了最新的Gemma3系列开源模型,迅速成为业界热议的焦点,其中,Gemma327BIT模型尤为引人注目。如下图所示为Google广泛宣传的Gemma327BIT模型在ChatbotArenaLeaderboard[1]上的表现,以27B的参数量,不仅超越了更大参数量的DeepSeekV3(实际激活参数量差不多),并且接近顶尖的DeepSeekR1。事实上性能真的这么“炸裂”吗?还是面向ChatbotArena的优化?值得注意的是,ChatbotArena的排名基于用户盲测投...
2025-03-27 07:18:03 4122浏览 0点赞 0回复 0收藏
一、背景DeepSeekV3R1模型的发布,以及AIInfra相关代码库的开源,对大模型从业者产生了不容忽视的影响。从短期来看,这些工作确实推动了业界对AIInfra建设的关注,至少促使人们开始重视算法与Infra的协同设计。这一变化也看似提升了Infra团队在整个大模型生成链路的话语权,但也为相关从业者带来了更大的学习压力与追赶挑战,甚至看到一些公司或团队因而重新审视了原有的发展规划。近期,我依然保持阅读了一些相关文章,但由于...
2025-03-17 00:52:51 2877浏览 0点赞 0回复 0收藏
一、引言DeepSeek从2024年01月到2025年01月发布了一系列模型,其中最主要的就是语言系列模型,这个文档中我们会对语言模型涉及的关键技术进行具体介绍:语言模型:DeepSeekV1、MoE、V2、V3。多模态模型:DeepSeekVL1、VL2、Janus。数学、代码、Reasoning模型:DeepSeekMath、Coder、CoderV2、R1。如下图所示,图中我们汇集了DeepSeekV1、MoE、V2、V3、R1系列模型中的关键技术点;此外,也补充了DeepSeekA100和H800GPU集群的关键...
2025-03-05 10:11:27 8358浏览 1点赞 0回复 1收藏
获得成就
已积累 7.7w 人气
获得 7 个点赞
获得 5 次收藏