一、背景我们在之前的文章中已经介绍过很多对大规模AI集群建设和维护相关相关的文章,包含Meta、阿里、IBM、ImbueAI、字节、上海AIlab等等。今天简单介绍一篇新的文章,其相对比较简单,主要关注GPU异常,与我们之前介绍万卡集群运维中的Case高度重合,但也有一些不一样的地方,就当简单回顾。对应的论文为:[2503.11901]CharacterizingGPUResilienceandImpactonAIHPCSystems[1]二、摘要论文对NCSADeltaAI集群(算力超过600PFLO...