低比特量化的LLAMA3模型有多好? | 香港大学&北航最新研究发布

发布于 2024-4-24 10:10
浏览
0收藏

低比特量化的LLAMA3模型有多好? | 香港大学&北航最新研究发布-AI.x社区

论文链接:https://arxiv.org/pdf/2404.14047.pdf
项目链接:https://github.com/Macaronlin/LLaMA3-Quantization  
模型链接:https://huggingface.co/LLMQ


Meta的LLAMA系列已成为最强大的开源大语言模型(LLM)系列之一。值得注意的是,LLAMA3模型最近发布,并在超大规模的预训练数据(超过15T tokens)上取得了令人印象深刻的性能。鉴于在资源有限的情况下低比特量化在LLMs中的广泛应用,本文探索了LLAMA3在量化到低比特宽度时的能力。这一探索有可能揭示LLAMA3和其他即将推出的LLMs的低比特量化的新见解和挑战,特别是在解决LLM压缩中遇到的性能下降问题方面。

具体而言,本文评估了LLAMA3的10种现有的训练后量化和LoRA微调方法,分别在1-8比特和各种数据集上,以全面揭示LLAMA3的低比特量化性能。本文的实验结果表明,在这些场景中,LLAMA3仍然遭受了相当大的性能下降,尤其是在超低比特宽度下。这凸显了未来发展中需要填补的低比特宽度下的显著性能差距。


本文期望这项实证研究将有助于推动未来模型的发展,推动LLMs在更低的比特宽度上以更高的精度实用化。

介绍

由Meta于2023年2月推出的LLaMA系列代表了使用Transformer架构的自回归大语言模型(LLMs)的突破。从其第一个版本开始,拥有130亿参数的LLaMA系列就成功地超越了拥有1750亿参数的更大的、闭源的GPT-3模型。2024年4月18日,Meta推出了LLAMA3模型,提供了80亿和700亿参数的配置。由于在超过15万亿数据tokens上进行了广泛的预训练,LLAMA3模型在各种任务中实现了最先进的性能,将LLaMA系列确立为可用于广泛应用和部署场景的最优秀的开源LLMs之一。


尽管它们的性能令人印象深刻,但在许多场景中部署LLAMA3模型仍然面临着重大挑战,这主要是由于资源限制。幸运的是,低比特量化已经成为压缩LLMs最流行的技术之一。这种技术在推断期间降低了LLMs的内存和计算需求,使它们能够在资源有限的设备上运行。

解决压缩后性能下降的问题是当前LLM量化方法的主要关注点。虽然已经提出了许多低比特量化方法,但它们的评估主要集中在较早和能力较弱的LLaMA模型(LLAMA1和LLAMA2)上。因此,LLAMA3为LLM社区提供了一个新的机会,评估对最新LLM进行量化的性能,并了解现有方法的优势和局限性。在这项实证研究中,目标是分析LLAMA3处理由于量化而导致的性能下降所面临的挑战的能力。

本文的研究确定了两个主要的技术路线来量化LLMs:训练后量化(PTQ)和LoRA-FineTuning(LoRA-FT)量化, 旨在全面评估LLAMA3模型的量化效果。本文在技术路线上探索了一系列前沿的量化方法(RTN、GPTQ、AWQ、SmoothQuant、PB-LLM、QuIP、DB-LLM和BiLLM用于PTQ;QLoRA和IR-QLoRA用于LoRA-FT),覆盖了从1比特到8比特的广泛范围,并利用了多种评估数据集,包括WikiText2、C4、PTB、CommonSenseQA数据集(PIQA、ARC-e、ARC-c、HellaSwag、Winogrande)和MMLU基准


本文的研究概述如下图1所示。这些评价评估了LLAMA3模型在当前LLM量化技术下的能力和限制,并为未来LLM量化方法的设计提供了灵感。专注于LLAMA3模型的选择是由于其在各种数据集上的卓越性能,包括5-shot MMLU、0-shot GPQA、0-shot HumanEval、8-shot CoT GSM-8K和4-shot CoT MATH等,这使其成为当前所有开源指令调整型LLMs中表现最优秀的模型。此外,已经在https://github.com/Macaronlin/LLaMA3-Quantization和https://huggingface.co/LLMQ上向公众提供了本文的项目和量化模型。这不仅有助于推动LLM量化社区内的研究,而且有助于更广泛地理解和应用有效的量化技术。

低比特量化的LLAMA3模型有多好? | 香港大学&北航最新研究发布-AI.x社区

实验评估

实验设置

评估LLMs。 本文对预训练的LLAMA3-8B和-70B进行了评估,通过官方仓库获取。

量化方法。 为了评估低比特量化的LLAMA3的性能,本文选择了具有广泛影响和功能的代表性LLM量化方法,包括8种PTQ方法和2种LoRA-FT方法。本文评估的量化方法的实现遵循它们的开源仓库。本文还使用了八个具有80GB GPU内存的NVIDIA A800进行定量评估。


评估数据集。 对于PTQ方法,本文在WikiText2、PTB和C4数据集的一部分上评估量化的LLAMA3,使用困惑度(Perplexity,PPL)作为评估指标。随后,本文进一步在五个 zero-shot 评估任务(PIQA、Winogrande、ARC-e、ARC-c和Hellaswag)上进行实验,以充分验证LLAMA3的量化性能。对于LoRA-FT方法,本文在5-shot MMLU基准上进行评估,同时还验证了在前述五个 zero-shot 数据集的LoRA-FT方法。


为了评估的公平性,本文统一使用WikiText2作为所有量化方法的校准数据集,样本大小为128,token 序列长度保持一致为2048。此外,对于需要通道分组的量化方法,本文采用块大小为128,以平衡性能和推断效率,这是现有工作中的常见做法。

技术路线1:训练后量化

如下表1和下表2所示,本文分别提供了LLAMA3-8B和LLAMA3-70B在8种不同的PTQ方法下的性能,涵盖了从1到8比特的广泛比特宽度范围。

低比特量化的LLAMA3模型有多好? | 香港大学&北航最新研究发布-AI.x社区

低比特量化的LLAMA3模型有多好? | 香港大学&北航最新研究发布-AI.x社区

其中,Round-To-Nearest(RTN)是一种基本的四舍五入量化方法。GPTQ是目前最有效率和有效的仅权重量化方法之一,它利用量化中的误差补偿。但在2-3比特下,GPTQ在量化LLAMA3时会导致严重的准确度下降。AWQ采用异常通道抑制方法来减少权重量化的难度,而QuIP通过优化矩阵计算来确保权重和Hessian之间的不一致性。它们两者都能保持LLAMA3在3比特的性能,并且甚至可以将2比特量化推向前景。


最近出现的二值化LLM量化方法实现了超低比特宽度LLM权重压缩。PB-LLM采用混合精度量化策略,在将大部分权重量化为1比特的同时保留了一小部分重要权重的完整精度。DB-LLM通过双二值化权重分割实现了高效的LLM压缩,并提出了一种基于偏差感知的蒸馏策略,进一步增强了2比特LLM的性能。


BiLLM通过突出权重的残差逼近和非突出权重的分组量化,将LLM量化边界进一步推至低至1.1比特。这些专为超低比特宽度设计的LLM量化方法可以在⩽2比特时获得更高的LLAMA3-8B量化精度,在2比特以下远远超过了像GPTQ、AWQ和QuIP等方法(甚至在某些情况下超过3比特)。


本文还通过SmoothQuant对量化激活的LLAMA3进行评估,SmoothQuant将量化难度从激活转移到权重上,以平滑激活的异常值。本文的评估显示,SmoothQuant在8比特和6比特的权重和激活下可以保持LLAMA3的准确性,但在4比特时面临性能下降。

此外,本文发现LLAMA3-70B模型在各种量化方法中表现出显著的稳健性,即使在超低比特宽度下也是如此。

技术路线2:LoRA-FineTuning量化

除了PTQ方法之外,如下表3所示,本文还提供了4比特LLAMA3-8B使用2种不同LoRA-FT量化方法的性能,包括QLoRA和IR-QLoRA。

低比特量化的LLAMA3模型有多好? | 香港大学&北航最新研究发布-AI.x社区

在MMLU数据集上,LLAMA3-8B在LoRA-FT量化下最显著的观察是,Alpaca数据集上的低秩微调不仅不能弥补量化引入的错误,甚至使恶化更加严重。具体来说,与没有LoRA-FT的4比特对应版本相比,各种LoRA-FT量化方法在4比特下获得的性能更差的量化LLAMA3。这与LLAMA1和LLAMA2上类似的现象形成鲜明对比,对于前者,在MMLU上,4比特的低秩微调量化版本甚至可以轻松超过原始的FP16对应版本。



直觉分析,这种现象的主要原因是由于LLAMA3通过其大规模预训练带来的强大性能,这意味着原始模型的量化带来的性能损失无法通过在低秩参数的小数据集上进行微调来弥补(可以看作是原始模型的一个子集)。尽管无法通过微调来弥补量化带来的显著下降,但4比特LoRA-FT量化的LLAMA3-8B在各种量化方法下明显优于LLAMA1-7B和LLAMA2-7B。例如,使用QLoRA方法,4比特LLAMA3-8B的平均准确度为57.0(FP16:64.8),超过了4比特LLAMA1-7B的38.4(FP16:34.6)18.6,以及超过了4比特LLAMA2-7B的43.9(FP16:45.5)13.1。这意味着在LLAMA3时代需要一种新的LoRA-FT量化范式。

类似的现象也在CommonSenseQA基准测试中发生。与没有LoRA-FT的4比特对应版本相比,使用QLoRA和IR-QLoRA微调的模型的性能也下降了(例如,QLoRA平均下降了2.8%,而IR-QLoRA平均下降了2.4%)。这进一步证明了在LLAMA3中使用高质量数据集的优势,因为一般数据集Alpaca并不对模型在其他任务中的性能做出贡献。

结论

Meta最近发布的LLAMA3模型迅速成为最强大的LLM系列,引起了研究人员的极大兴趣。借助这一势头,本文的研究旨在全面评估LLAMA3在各种低比特量化技术下的性能,包括训练后量化和LoRA微调量化。本文的目标是通过利用现有的LLM量化技术,评估LLAMA3在资源有限的情况下的能力边界。本文的研究发现表明,尽管LLAMA3在量化后仍然表现出优越的性能,但与量化相关的性能下降是显著的,甚至在许多情况下可能导致更大的下降。这一发现突显了在资源受限环境中部署LLAMA3的潜在挑战,并强调了在低比特量化背景下增长和改进的充足空间。本文研究的实证洞见预计将对未来LLM量化技术的发展具有价值,特别是在缩小与原始模型之间的性能差距方面。通过解决低比特量化引起的性能下降,预计随后的量化范式将使LLMs能够以更低的计算成本实现更强大的能力,最终推动生成式人工智能的进步,如LLMs所代表的,达到新的高度。


本文转自 AI生成未来 ,作者:Wei Huang等


原文链接:​​https://mp.weixin.qq.com/s/KQdaPvpbWyXza-8__4iAeg​

标签
收藏
回复
举报
回复
相关推荐