Sample Packing 综述:LLM 效果与效率的 Tradeoff
本文中我们通过几篇论文来具体介绍SamplePacking相关的方案和对应的各种问题,比如GraphCore的PackedBert、Meta的InContextPretraining、智谱AI的LongAlign、Amazon的FewerTruncations以及IBM的PackingwithFlashAttention。一、背景上一篇文章(SamplePacking:长序列LLM训练的Attention问题及优化)中我们简单介绍了SamplePacking相关的问题和部分简单实验。本文中我们通过几篇论文来具体介绍SamplePacking相关的方...