
回复
Unsloth的动态GGUFs展示了如何将DeepSeek-V3.1 (671B)量化到仅1比特或3比特,并且仍能超越GPT-4.5、GPT-4.1和Claude-4-Opus等SOTA模型。
Aider多语言基准测试是衡量大语言模型编写、编程、遵循指令以及在无人工干预情况下应用更改能力的最全面测试之一。
图片
动态1比特将重要层设置为8或16比特,将不重要的层设置为1、2、3、4、5或6比特。
这种方法将一些层量化到低至1比特,将重要层量化到更高比特(6、8比特),已成为MoE量化的事实标准。配合专为聊天和编程性能设计的imatrix校准数据集,实现了极致的LLM压缩而不会出现灾难性的质量损失。。
图片
Unsloth还在 https://docs.unsloth.ai/basics/unsloth-dynamic-2.0-ggufs 中展示了Gemma 3和Llama 4 Scout的动态基准测试,显示了我们方法的有效性:
图片
图片
基准实验由David Sluys进行,测试运行约3次并平均得出中位数分数。对于非推理模式,动态5比特在Aider Pass-2上达到70.7%,而动态1比特达到55.7%。
与其他量化方法的比较 与相同模型大小和量化类型的其他社区量化相比,Unsloth动态量化表现非常出色。
动态量化消融研究attn_k_b和DeepSeek V3.1中的其他张量对量化高度重要,应保留在更高精度以保持准确性。仅通过增加约100MB左右的量化大小(<0.1%),准确率就大幅提升。
图片
图片
本文转载自AI帝国,作者:无影寺