
厉害了!大模型自注意力模块关键发现
今日分享一篇罗格斯大学团队发现了大语言模型注意力机制的查询(Q)和键(K)表示中存在非常集中的大值,并探讨了这些极大值的应用以及来源,该研究已经被机器学习三大顶会之一ICML收录.。
这项研究揭示了大型语言模型中一个重要现象:在注意力机制的查询(Q)和键(K)表示中存在集中的大值,而在值(V)表示中却没有这种模式。这一现象在使用旋转位置编码(RoPE)的现代Transformer模型中普遍存在。
四大核心发现
1. 极大值在Q和K中的特定区域高度集中: 研究发现这些大值在每个注意力头的相似位置上聚集,LLM内部每个head运算是独立的,但是现在却很集中,非常反常识。这一现象在没有使用RoPE的模型(如GPT-2和OPT)中不存在。
2. Q和K中的大值对理解上下文知识至关重要: 这些大值主要影响模型处理当前上下文窗口中的信息的能力,而非从参数中提取的知识。破坏这些大值会显著降低模型在需要上下文理解的任务上(比如大海捞针)的表现。但是对于只需要记忆的任务(中国首都是哪里),破坏极大值缺不会有什么影响
3. 破坏极大值缺不会有什么影响针对大值的量化技术能更好地保存上下文知识: 实验表明,如AWQ和SmoothQuant等专门处理大值的量化方法能有效维持模型的上下文理解能力,而未特别处理大值的方法则会导致性能明显下降。
4. 极大值集中现象由RoPE引起,并在早期层就已出现: 分析表明,这一现象源于RoPE机制,它使Q和K中的低频区域受位置信息影响较小,大值集中现象从最初的层就开始显现。因为Rope只作用于QK,所以也只有QK有集中地极大值
研究意义这项研究深入剖析了LLM内部机制,特别是注意力模块中Q和K组件的独特结构特性。通过揭示大值在处理上下文知识中的关键作用,为模型设计和优化提供了实用见解,尤其是在量化策略方面。
该研究代码已在GitHub上开源:https://github.com/MingyuJ666/Rope_with_LLM
Arxiv Link: https://arxiv.org/pdf/2502.01563
实验:
研究结果显示,大值对不同类型的知识任务有截然不同的影响:
1.参数知识检索任务的韧性
- 当大值被破坏时,城市类任务仍然保持76%-88%的准确率,仅下降15-20%
- 体育、艺术和技术类别任务保持在65%-75%的表现
- 名人类别表现尤其稳定,各模型均保持70%以上的准确率
2.上下文知识理解任务的崩溃
- 数学推理任务出现灾难性下降:
GSM8K: 从81.30%降至15.10%
Llama3-8B: 从76.90%降至4.00%
Qwen2.5-7B: 从86.60%降至16.10%
- 密钥检索任务(Passkey Retrieval)准确率从100%直接崩溃至接近0%
- IMDB情感分析从94%以上下降至个位数
3. 非大值破坏的对照实验
- 当仅破坏非大值部分时,所有任务的表现保持稳定,变化通常小于±1%
- 这一对比凸显了大值在上下文知识理解中的关键作用
三种量化方法的比较分析
研究者评估了三种广泛使用的量化方法:
- AWQ (Lin et al., 2024)
通过在量化过程中选择性地保护"重要"权重来维持大值
在所有任务上保持较强的性能表现
- SmoothQuant (Xiao et al., 2023)
- 使用平滑因子(S)通过数学等价变换重新分配激活中的大值
- 同样在各类任务中表现良好
- GPTQ (Frantar et al., 2022)
不特别保护大值的量化方法
在上下文知识理解任务上表现显著下降
实验结果揭示的关键模式
图清晰展示了这三种方法在不同基准测试上的表现差异:
- 参数知识检索任务(城市、体育、名人):
所有量化方法都能保持良好表现
GPTQ虽然不保护大值,但在这些任务上表现几乎与其他方法相当
- 上下文知识理解任务(GSM8K和AQUA):
AWQ和SmoothQuant保持接近原始性能的高准确率
GPTQ表现显著下降,准确率降至约75%(归一化后)
这一差异特别有启发性,它明确表明:保护大值是维持上下文理解能力的关键
研究意义与应用价值
这些结果为研究者提出的假设提供了额外的实证支持:大值在大型语言模型的上下文知识理解能力中扮演着至关重要的角色。对于实际应用,这些发现具有以下意义:
- 量化策略优化指导:
设计新的量化方法时应重点考虑保护Q和K中的大值
对于优先保持上下文理解能力的应用场景,AWQ和SmoothQuant等方法更为合适
- 模型能力与压缩的权衡:
明确了在模型压缩过程中应当保留的关键结构
为开发更高效的模型压缩技术提供了理论基础
这部分研究不仅验证了大值在模型行为中的重要性,也为优化大型语言模型的量化策略提供了具体指导,具有显著的实用价值。通过保护这些关键的大值,可以在显著降低模型大小和计算需求的同时,保持模型处理上下文信息的核心能力。
图片
本文转载自AI-PaperDaily,作者:AI-PaperDaily
