
回复
微软研究院发布了第一个开源的、原生的 1 bit 大型语言模型(LLM):BitNet b1.58 2B4T:
BitNet b1.58 2B4T参数规模达到20亿,在包含4T tokens的语料库上进行训练,并在多个基准测试中表现出与同规模的领先全精度模型(LLaMA 3.2 1B、Qwen2.5 1.5B、Gemma-3 1B等)相当的性能。
选择了一个领先的全精度模型Qwen2.5 1.5B,并对其应用了两种标准的INT4量化方法:GPTQ和AWQ。
模型权重已通过 Hugging Face 公开发布,冲上热榜Top1,并提供了针对 GPU 和 CPU 架构的开源推理实现。
现有的1bit模型要么是基于全精度模型的后训练量化(PTQ),导致性能显著下降;要么是规模较小的原生1bit模型;BitNet b1.58 2B4T 模型完全从头开始训练,核心创新是用自定义的 BitLinear 层替换了标准的全精度线性层。这些 BitLinear 层包括:
除了 BitLinear 层外,还集成了多种已建立的 LLM 技术以增强性能和稳定性,包括在前馈网络(FFN)子层中使用 ReLU2 激活函数、RoPE 以及去除所有线性层和归一化层的偏置项。
BitNet b1.58 2B4T 的训练过程包括三个阶段:
https://arxiv.org/pdf/2504.12285
https://hf-mirror.com/microsoft/bitnet-b1.58-2B-4T
BitNet b1.58 2B4T Technical Report
本文转载自PaperAgent