
DeepSeek发布新模型!采用全新稀疏注意力架构设计,与国产芯片协同优化 原创
昨天,DeepSeek正式发布并开源了DeepSeek-V3.2-Exp模型,新模型引入的稀疏注意力架构不仅带来了计算效率的显著提升,更实现了API价格的大幅下调。同时,新架构还与国产芯片深度协同,适配多家国产芯片厂商。
DeepSeek-V3.2-Exp作为一个实验性版本,在其前代模型V3.1-Terminus的基础上引入了DeepSeek Sparse Attention稀疏注意力机制。这一架构创新突破了传统Transformer架构的限制,让模型在处理每个字符时能够只关注那些与它最相关的少数关键信息,从而大幅提升长文本训练和推理效率。
效率提升直接体现在成本变化上。DeepSeek宣布官方API价格相应下调,在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上。具体来看,输入价格在缓存命中时从0.5元/百万tokens降至0.2元/百万tokens,输出价格则从12元/百万tokens大幅降到了3元/百万tokens。这种幅度的降价使得高性能AI模型的使用门槛显著降低。
技术层面,DeepSeek采用全新的稀疏注意力机制。新架构用一个更精简的128维FP8精度Lightning Indexer替代了过去相对臃肿的注意力机制。这个索引器本身不携带复杂信息,只作为快速查找工具,查找过程使用低成本的FP8精度,而进行核心计算的重要信息则依然保持完整的FP16全精度处理。这种在不影响最终质量的地方极致压缩成本的思路,是能够将注意力成本降低近9倍的关键。
官方数据显示,在与V3.1-Terminus严格对齐的比较中,V3.2-Exp在各项核心能力上都保持了基本持平的水准。在代码生成、数学推理和通用知识等多个公开评测集上,二者的得分都非常接近,差距基本控制在1%以内。这表明稀疏注意力机制在提升效率的同时,确实实现了性能的稳定保持。
此次发布的最大亮点是国产芯片的即时适配。DeepSeek-V3.2发布当天,寒武纪与昇腾均已实现适配。
全新DeepSeek Sparse Attention机制叠加国产芯片的计算效率,可大幅降低长序列场景下的训练推理成本。
这种软硬协同设计支持国产算力的深度协同不仅体现在算法与芯片的配合上,还延伸到了开发工具层面。DeepSeek开源了新模型研究中设计和实现的GPU算子,包括TileLang和CUDA两种版本。TileLang作为一种由北大团队研发的新型编程语言,专为简化高难度的GPU算子开发而设计,能够极大地降低底层优化的门槛和研发成本。
目前,模型已在Huggingface与魔搭平台开源,官方App、网页端、小程序均已同步更新。
V3.2-Exp代表着DeepSeek向下一代架构迈进的关键一步。官方将其定位为一次针对长文本训练与推理效率的探索性优化和验证。
随着上下文窗口越来越长,传统注意力机制可能会遭遇性能上的注意力悬崖,即在某个长度节点之后,模型处理信息的能力会突然大幅下降。
稀疏注意力机制的应用,正是为未来更长的上下文场景探索一种能从根本上避免这个问题的架构解决方案。
DeepSeek-V3.2-Exp的发布,展示了AI模型发展的一条可行路径——通过底层架构创新实现效率突破,进而推动整个应用生态的繁荣。
随着开源模型的不断进步和国产算力协同的深化,AI技术正在以前所未有的速度走向普及和应用。DeepSeek-V3.2-Exp的开源,所代表的不只是一次技术迭代,更是整个AI产业生态成熟和深化的体现。
