1比特或3比特量化模型能够超越GPT-4.1或Claude-Opus-4吗?

发布于 2025-9-12 07:20
浏览
0收藏

Unsloth的动态GGUFs展示了如何将DeepSeek-V3.1 (671B)量化到仅1比特或3比特,并且仍能超越GPT-4.5、GPT-4.1和Claude-4-Opus等SOTA模型。

关键结果

  • 1比特动态GGUF将DeepSeek-V3.1从671GB → 192GB(减少75%体积),无思考模式大幅超越GPT-4.1、GPT-4.5和DeepSeek-V3-0324
  • 3比特DeepSeek-V3.1(思考)GGUF:超越Claude-4-Opus-20250514(思考)
  • 5比特DeepSeek-V3.1(非思考)GGUF:与Claude-4-Opus-20250514(非思考)性能相匹配
  • 其他非Unsloth的1比特和2比特量化要么无法加载,要么产生乱码和循环输出

Aider多语言基准测试是衡量大语言模型编写、编程、遵循指令以及在无人工干预情况下应用更改能力的最全面测试之一。

1比特或3比特量化模型能够超越GPT-4.1或Claude-Opus-4吗?-AI.x社区图片

Unsloth动态量化

动态1比特将重要层设置为8或16比特,将不重要的层设置为1、2、3、4、5或6比特。

这种方法将一些层量化到低至1比特,将重要层量化到更高比特(6、8比特),已成为MoE量化的事实标准。配合专为聊天和编程性能设计的imatrix校准数据集,实现了极致的LLM压缩而不会出现灾难性的质量损失。。

1比特或3比特量化模型能够超越GPT-4.1或Claude-Opus-4吗?-AI.x社区图片

Unsloth还在 https://docs.unsloth.ai/basics/unsloth-dynamic-2.0-ggufs 中展示了Gemma 3和Llama 4 Scout的动态基准测试,显示了我们方法的有效性:

1比特或3比特量化模型能够超越GPT-4.1或Claude-Opus-4吗?-AI.x社区图片

1比特或3比特量化模型能够超越GPT-4.1或Claude-Opus-4吗?-AI.x社区图片

基准测试结果

基准实验由David Sluys进行,测试运行约3次并平均得出中位数分数。对于非推理模式,动态5比特在Aider Pass-2上达到70.7%,而动态1比特达到55.7%。

与其他量化方法的比较 与相同模型大小和量化类型的其他社区量化相比,Unsloth动态量化表现非常出色。

动态量化消融研究attn_k_b和DeepSeek V3.1中的其他张量对量化高度重要,应保留在更高精度以保持准确性。仅通过增加约100MB左右的量化大小(<0.1%),准确率就大幅提升。

1比特或3比特量化模型能够超越GPT-4.1或Claude-Opus-4吗?-AI.x社区图片

1比特或3比特量化模型能够超越GPT-4.1或Claude-Opus-4吗?-AI.x社区图片

本文转载自​AI帝国​,作者:无影寺

已于2025-9-12 07:20:55修改
收藏
回复
举报
回复
相关推荐