如何理解DeepSeek-V3.2-Exp的稀疏注意力机制 | 官方报告里没提的一些技术细节
果然是假期之前爱“搞事”,还有两天就国庆了,DeepSeek放出了DeepSeek-V3.2-Exp。相比之前的版本,主要创新是引入了一种稀疏注意力机制DSA(DeepSeek Sparse Attention)。官方的Tech Report比较宏观,对细节描述不多。好在DeepSeek今天也开源模型推理源代码,我认真看了一下,做了一点实验,分享记录DSA的一些技术原理和细节。
为什么大模型害怕“长篇大论”?
想象一下你走进一个上百人的聚会,为了不错过任何重要信息,你需要听清每个人说的话。这会让你筋疲力尽!大语言模型(LLM)在阅读长文章时也面临类似困境。传统的注意力(Attention)机制,就像那个聚会上的你,要求每个词(token)都去“关注”文章里的所有其他词。如果文章长度翻倍,模型的计算量就要翻四倍(即 O(L²) 复杂度),很快就会不堪重负。
为了解决这个“聚会难题”,DeepSeek-V3.2-Exp 提出了一种聪明的方案——DeepSeek Sparse Attention (DSA)。它让模型不再需要“雨露均沾”,而是学会“重点关注”,从而高效地处理超长文本。
DSA的核心思想:图书馆里的“先查索引,再精读”
DSA 的工作方式,就像你在一个巨大的图书馆里找资料。你不会一头扎进去,把每一本书都翻一遍。更聪明的做法是:
- 第一步(快速索引):先去图书馆的电脑上(一个轻量级的“闪电索引器”)搜索关键词。电脑会快速扫描整个图书馆的目录,给你一个简短的书单,告诉你哪些书最可能包含你需要的信息。
- 第二步(重点精读):拿着这份书单,你直接找到那几本最相关的书,然后仔细阅读(模型的主注意力机制MLA)。
通过这种方式,你避免了阅读成千上万本无关书籍的巨大工作量。DSA 正是采用了这种“先粗筛,后精读”的策略,将主注意力的计算复杂度从 O(L²) 降低到了 O(L * K),其中 K 是书单上书的数量(通常远小于 L)。

(官方报告中的DSA架构图,绿色部分就是我们的“图书馆电脑”——闪电索引器)
第一阶段:“闪电索引器”快如闪电的三大秘诀
这个“图书馆电脑”为什么能那么快地扫描海量信息呢?因为它有三个“秘密武器”:
1. 结构简化:用“卡丁车”替代“F1赛车”索引器本身就是一个简化版的“迷你”注意力模型。从 model.py 的 Indexer 类定义可以看出,它的头数(index_n_heads=64)和维度(index_head_dim=128)都相对较小。这就像用一辆轻便的卡丁车来完成侦察任务,而不是动用昂贵笨重的F1赛车。虽然没那么强劲,但胜在灵活、快速、成本低。
2. 激进量化:用“黑白简笔画”替代“高清彩照”这是提速的核心。索引器在计算时,把所有数据都从高精度的格式(如 BF16)压缩成了一种叫 FP8 的超低精度格式。
可以把 FP8 理解成一张“黑白简笔画”。它虽然丢失了高清彩照的很多细节,但核心轮廓和信息都在,足以让你辨认出是什么。计算机处理这种“简笔画”的速度要比处理“高清彩照”快得多,内存占用也减半。kernel.py 中的 act_quant 函数就负责这个“压缩”过程。
3. 定制硬件指令:为“卡丁车”装上“专用引擎”为了把 FP8 的速度优势发挥到极致,DeepSeek 没有使用通用的计算代码,而是用一种叫 TileLang 的语言编写了专属的 CUDA 核函数 fp8_index。
这相当于为这辆“卡丁车”量身打造了一台专用引擎。这台引擎只为一件事而生——以最快速度完成索引器特定的计算任务,从而在硬件层面实现了极致的加速。
小结: 闪电索引器通过 “轻量模型 + 低精度计算 + 定制代码” 这三板斧,实现了名副其实的“闪电”速度,为后续的精读环节提供了高效指引。
第二阶段:给主注意力戴上“特制眼罩”
索引器给出了“书单”(Top-K 相关的词)之后,主注意力模块 MLA (Multi-Head Latent Attention) 如何利用这份清单呢?
答案是:给它戴上一副只留了几个小孔的“眼罩” (Masking) 。
我们来看 model.py 中 MLA.forward 方法的简化逻辑:
# model.py -> class MLA
def forward(self, x, ...):
# ... (主注意力计算自己的 Q, K, V)
# 1. 问索引器要“书单”
topk_indices = self.indexer(x, ...)
# 2. 制作“眼罩”
# - 先拿一块完全不透光的布(一个填满 -inf 的张量)
index_mask = torch.full(..., float("-inf"), ...)
# - 在“书单”上对应的位置,戳几个小孔(把值设为 0)
index_mask.scatter_(-1, topk_indices, 0)
# ... (主注意力计算原始的相关度分数 scores)
scores = torch.einsum(...)
# 3. 戴上“眼罩”
# - 把“眼罩”盖在分数上,没开孔的地方分数会变得极低
scores += index_mask.unsqueeze(2)
# 4. 最终计算
# - 经过 Softmax 后,被遮住的地方概率几乎为0,模型只会关注“小孔”里的内容
scores = scores.softmax(...)
x = torch.einsum(...)
return x整个过程非常直观:
- 获取清单:索引器返回一份列表,告诉我们当前这个词最应该关注哪 K 个历史词。
- 制作眼罩:我们创建一个“眼罩”(
index_mask),默认遮住所有东西。然后,只在清单上指定的位置开几个“观察孔”。这里的技术实现是用一个极大的负数 -inf 代表“遮住”,用 0 代表“开孔”。 - 戴上眼罩:在主注意力计算出它对所有词的初步“好感度”(
scores)后,我们把这个眼罩盖上去。被遮住的地方,好感度瞬间变成负无穷。 - 聚焦计算:经过
softmax 函数处理后,那些好感度为负无穷的位置,其最终权重会趋近于零,被彻底忽略。模型的所有“精力”都将集中在从那几个小孔里看到的词上。
这样,强大的主注意力模块就被强制只在最有价值的一小部分信息上进行深度计算,既保证了效果,又实现了惊人的效率提升。
DSA 的智慧所在
DeepSeek Sparse Attention (DSA) 并非一个全新的复杂算法,而是一种非常聪明的工程思想,体现了“分工与协作”的智慧:
- 闪电索引器 (侦察兵):一个速度极快、成本极低的侦察兵,负责快速扫描整个战场,并带回一份“高价值目标”的简报。
- 主注意力 (主战部队):一支装备精良、战力强大的主战部队。它根据侦察兵的简报,通过“眼罩”机制,将火力精准地倾泻在少数关键目标上,不做任何浪费。
这种“侦察兵 + 主战部队”的协同作战模式,让 DeepSeek-V3.2-Exp 在处理长文本时,既能看得远(全局索引),又能看得清(局部精读),最终实现了效率与性能的高效平衡。
Appendix
- DeepSeek-V3.2-Exp模型推理源代码,上面说的model.py, kernel.py都在这儿: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp/tree/main/inference
- DeepSeek-V3.2-Exp Tech Report: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
本文转载自后向传播,作者: 张发恩

















