amei2000go
LV.2
这个用户很懒,还没有个人简介
声望 135
关注 0
粉丝 1
私信
主帖 11
回帖
一、引言最近imbue发布了其自研的Imbue70B模型,各项能力与LLaMA370B相当,在推理相关的任务上表现优于zeroshot的GPT4o。更难能可贵的是,Imbue也进一步分享了他们从0到1构建一个大规模GPU集群的端到端指南(Frombaremetaltoa70Bmodel:infrastructuresetupandscriptsimbue):包括网络拓扑,系统安装,模型训练遇到的各种异常,以及各种解决方案。除此之外,作者还开源了相关的工具和脚本:GitHubimbueaiclusterhealth。本文中...
2天前 216浏览 1点赞 1回复 0收藏
一、背景上一篇文章(​​​LLM评估汇总:真的吊打LLaMA3,媲美GPT4吗?​​)我们简单汇总了一些常见的LLM评估指标,以及在收集这些指标时遇到的问题。最近在看[2405.19327]MAPNeo:HighlyCapableandTransparentBilingualLargeLanguageModelSeries时发现其提到了MMLUPro评估集,之前没有接触到,与此同时又正好看到了对应的Paper,这里简单进行介绍。MAPNeo和MMLUPro的部分作者是相同的。对应的Paper:[2406.01574]MMLUPro:AMor...
4天前 187浏览 0点赞 0回复 0收藏
一、背景在LLM的预训练过程中,通常会不断地保存Checkpoint,主要有以下几个好处:中断恢复:在大规模训练中,硬件故障和偶然的软件故障是不可避免的。通过保存Checkpoint,可以在发生异常时恢复训练,避免从头开始。进度管理:LLM需要评估的指标很多,但通常不会在模型训练中实时评估,而是通过保存Checkpoint进行离线评估。这有助于评估模型是否朝着正确的方向发展。增量学习:保持Checkpoint也为后续的增量学习和迁移学习提...
8天前 305浏览 0点赞 0回复 0收藏
一、背景LLM的涌现能力依赖于其模型规模的增长,而ScalingLaw也在推进LLM朝着越来越大的方向发展。然而,LLM预训练的成本非常高,尤其是其与模型规模、数据量成正比,一个千亿参数量的模型往往需要几千个GPU训练几个月的时间。加速LLM预训练也因此称为一个非常有前景的研究方向。当前常见的优化方案为优化分布式策略,通信,以及训练稳定性等。与此同时,很多时候大家都会训练各种规模的LLM,例如LLaMA系列模型。也有许多工作在...
2024-07-01 11:53:26 259浏览 0点赞 0回复 0收藏
一、背景之前的文章中我们具体介绍了万卡GPU集群中的网络拓扑以及在万卡GPU集群中进行大规模LLM训练面对的挑战和解决方案;也进一步介绍了阿里云的集合通信调度框架C4和C4底层的阿里云新一代智算集群网络架构HPN7.0。不过上述HPN7.0的相关介绍都是基于阿里官网或者之前的公开分享,最近阿里正式公布了HPN相应的Paper,与我们之前了解到的稍有不同,此处进行相应补充。有关双上联、双平面介绍这里不再赘述。对应的论文:​​http...
2024-06-27 15:42:26 462浏览 0点赞 0回复 0收藏
一、背景我们之前详细介绍过在千卡和万卡GPU集群中预训练LLM的挑战,其简单来说可以总结为几点:1.优化分布式策略,提升MFU;2.异步Checkpointing,增加Checkpointing频率,减少无效计算;3.完善的故障诊断及任务恢复机制;4.监控和Profiling方案。然而,在整个LLM的开发周期中,除了预训练外还有很多其他阶段,比如数据准备,微调以及模型评估等,如下图Figure1所示。这里我们介绍一篇上海AILab等团队的工作,其从整个LLM集群...
2024-06-19 11:05:31 490浏览 0点赞 0回复 0收藏
一、背景LLM中KVCache占据的显存越来越大,有很多方案开始尝试跨层共享K和V,比如我们之前介绍的YOCO、CLA以及LayerCondensedKVCache等,本文介绍的方案也极其类似。对应的论文为:[2406.09297]MLKV:MultiLayerKeyValueHeadsforMemoryEfficientTransformerDecoding对应的代码库为:​​https:github.comzaydzuhripythiamlkv​​PS:感觉本文创新度明显不足,相关实验也非常少,只在一个160M模型测试,甚至没有测试7B模型。二、...
2024-06-17 10:03:13 404浏览 0点赞 0回复 0收藏
一、背景我们在之前的两篇文章中详细介绍了万卡GPU集群中的网络拓扑相关信息以及在万卡GPU集群中进行大规模LLM训练面对的挑战和相应解决方案。最近又看到阿里团队在相关领域的工作,本文中我们简单对其进行总结。论文中很多基础知识没有展开介绍,强烈建议优先阅读对应的两篇文章:​​万卡GPU集群互联:硬件配置和网络设计​​​​万卡GPU集群实战:探索LLM预训练的挑战​​对应的论文为:[2406.04594]BoostingLargescaleParal...
2024-06-13 12:22:49 586浏览 0点赞 0回复 0收藏
一、背景在过去的一年多里,国内在大模型领域的发展异常迅速,涌现出上百个大模型,许多模型已经迭代了多个版本,并且各种指标不断刷新。与此同时,我们也经常在国内的一些文章中看到声称“吊打LLaMA3”或“媲美GPT4”的说法。那么,国内的大模型真的已经达到对标OpenAI的水平了吗?实际上,由于大模型的评估指标种类繁多,各种文章中所对比的模型也不尽相同,甚至有时会出现一些误导信息。因此,我们决定系统性梳理一下公认性...
2024-06-07 12:36:27 526浏览 0点赞 0回复 0收藏
一、背景在LLM推理中,常常会采用KVCache来缓存之前Token的中间结果,以显著减少重复计算,从而降低自回归生成中的延迟。然而,KVCache的大小与序列长度成正比,在处理长序列时会面临极大的挑战。尤其当前许多模型开始支持几百K甚至几M的序列长度,进一步凸显了KVCache的问题,因此很多研究工作致力于降低KVCache的占用。本文中简单介绍几个最新的工作,包括SnapKV、YOCO、CLA、LayerCondensedKVCache、MiniCache以及PyramidInf...
2024-05-30 10:51:49 966浏览 0点赞 0回复 0收藏
一、背景最近Meta的研究员开发了一个新的框架来了解LLM训练中数值偏差的影响,并基于该框架评估了LLM中广泛采用的FlashAttention的数值偏差。对应的论文为:[2405.02803]IsFlashAttentionStablePS:其实论文很简单,结论也很简单:使用FlashAttention相比BaselineAttention确实会带来数值偏差。但带来的数值偏差比从FP32到FP16的数值偏差小得多,甚至小于不同初始化方法带来的偏差。吐槽一下,论文中的图都比较模糊。二、摘要LL...
2024-05-28 10:41:42 533浏览 0点赞 0回复 0收藏
获得成就
已积累 1191 人气
获得 1 个点赞
获得 0 次收藏