特定条件下,LoRA可以媲美全量微调 | 十个要点

发布于 2025-10-15 00:24
浏览
0收藏

Thinking Machines,一家成立不久便震惊硅谷的AI公司。它由前OpenAI CTO Mira和联合创始人John Schulman共同创立,团队汇集了大量来自OpenAI的核心人才。他们继承了80年代传奇AI超算公司“Thinking Machines”之名,志在进行最根本、最前沿的AI探索。

来自Thinking Machines的最新研究《LoRA Without Regret》深入探讨了参数高效微调(PEFT)的领先方法——低秩适应(LoRA),并得出结论:在特定条件下,LoRA的性能可以完全媲美甚至超越全量微调(FullFT)。对于希望在节省计算资源的同时获得最佳模型性能的开发者和研究者来说,这无疑是个好消息。以下是该研究的十个核心要点:

特定条件下,LoRA可以媲美全量微调 | 十个要点-AI.x社区

1. 核心结论:LoRA能够达到与全量微调相同的效果

研究表明,只要关键细节得当,LoRA能够以与全量微调(FullFT)相同的样本效率进行学习,并达到相同的最终性能。这打破了LoRA性能必然逊于全量微调的普遍认知,为高效微调在更多场景中的应用打开了大门。

2. 关键条件一:必须应用于所有层,尤其是MLP/MoE层

研究发现,为了达到最佳性能,LoRA需要应用于模型的所有权重矩阵,而不仅仅是注意力层。尤其是在包含模型大多数参数的多层感知器(MLP)和混合专家(MoE)层上应用LoRA至关重要。仅在注意力层上应用LoRA会导致性能显著下降,即便增加其秩(rank)以匹配参数量也无济于事。

特定条件下,LoRA可以媲美全量微调 | 十个要点-AI.x社区

3. 关键条件二:容量不能受限

LoRA在“非容量受限”的情况下表现最佳。这意味着,可训练的参数数量需要超过待学习的信息量。对于大多数后训练(post-training)场景中常见的中小型数据集,LoRA的容量完全足够。但当数据集过大,超出LoRA适配器的存储极限时,其性能会开始落后于全量微调。

4. 强化学习(RL)场景下表现优异,低秩即可

一个令人振奋的发现是,在强化学习任务中,LoRA即使在极低的秩(例如rank=1)下,也能完全匹配全量微调的性能。研究从信息论角度解释了这一点:策略梯度等RL算法每个回合(episode)吸收的信息量远少于监督学习,因此不需要高容量的适配器。

5. 最佳学习率是全量微调的10倍

研究系统地发现,无论是监督学习还是强化学习,LoRA的最佳学习率稳定地比全量微调的最佳学习率高出约10倍。这一明确的规律使得从全量微调转向LoRA时的超参数迁移变得更加直接和简单。

特定条件下,LoRA可以媲美全量微调 | 十个要点-AI.x社区

6. 对大批量大小(Large Batch Sizes)的容忍度较低

在某些情况下,LoRA对大批量训练的容忍度不如全量微调。随着批量大小的增加,LoRA与全量微调之间的性能差距会拉大。这似乎是LoRA矩阵分解参数化方式的固有属性,不过在实践中,两者通常都在较小的批量大小下获得最佳效果。

7. 高秩LoRA与全量微调的学习曲线相似

实验中的图表显示,高秩的LoRA和全量微调拥有非常相似的学习曲线,损失随着训练步数的对数线性下降。而中低秩的LoRA在适配器容量耗尽后,学习速度会减慢,偏离最低损失曲线。

8. 颠覆传统:仅应用于注意力层是次优选择

最初的LoRA论文建议将其应用于注意力矩阵,许多后续工作也沿用了这一做法。然而,本次研究明确指出,这种“仅注意力”(attention-only)的方法性能不佳。与仅应用于MLP层相比,它甚至没有任何额外的好处。

9. 具备显著的计算效率优势

文章通过浮点运算次数(FLOPs)分析得出,在每次训练传递(forward-backward pass)中,LoRA所需的计算量仅为全量微调的约三分之二多一点。这意味着在同等硬件和时间内,LoRA能够完成更多的训练,从而在计算效率上超越全量微调。

10. 存在一个“低遗憾机制”(Low-Regret Regime)

该研究定义并验证了一个“低遗憾机制”的存在,即LoRA在大多数后训练场景的数据集大小和参数设置下,其表现与全量微调几乎没有差异。这为在各种应用中放心使用高效的LoRA微调提供了坚实的实验依据。

总而言之,这项研究为LoRA的使用者提供了清晰的指引:将LoRA应用于所有层,确保容量充足,并将学习率设置为全量微调的10倍,就能在享受其高效、低成本优势的同时,获得与全量微调相媲美的顶尖性能。

本文转载自​​​​后向传播​​​​,作者: 张发恩

收藏
回复
举报
回复
相关推荐