CPU推理仅29ms，微软开源第一个原生 1 bit 大模型，内存只需Qwen 1.5B的1/15

PaperAgent

发布于 2025-4-21 00:47

浏览

0收藏

微软研究院发布了第一个开源的、原生的 1 bit 大型语言模型（LLM）：BitNet b1.58 2B4T：

内存占用：BitNet b1.58 2B4T 的非嵌入层内存占用仅为0.4GB，远低于其他全精度模型。
能耗：估计的解码能耗为0.028焦耳，远低于其他模型。
解码延迟：在CPU上，BitNet b1.58 2B4T 的平均延迟为29ms，远低于其他模型。

CPU推理仅29ms，微软开源第一个原生 1 bit 大模型，内存只需Qwen 1.5B的1/15-AI.x社区

BitNet b1.58 2B4T参数规模达到20亿，在包含4T tokens的语料库上进行训练，并在多个基准测试中表现出与同规模的领先全精度模型（LLaMA 3.2 1B、Qwen2.5 1.5B、Gemma-3 1B等）相当的性能。

CPU推理仅29ms，微软开源第一个原生 1 bit 大模型，内存只需Qwen 1.5B的1/15-AI.x社区

选择了一个领先的全精度模型Qwen2.5 1.5B，并对其应用了两种标准的INT4量化方法：GPTQ和AWQ。

内存占用：BitNet b1.58 2B4T的非嵌入层内存占用仅为0.4GB，远低于Qwen2.5 1.5B的2.6GB（即使在INT4量化后，Qwen2.5 1.5B的内存占用仍为0.7GB）。
性能：尽管INT4量化显著减少了Qwen2.5 1.5B的内存占用，但BitNet b1.58 2B4T在大多数基准测试中保持了更强的性能。

CPU推理仅29ms，微软开源第一个原生 1 bit 大模型，内存只需Qwen 1.5B的1/15-AI.x社区

模型权重已通过 Hugging Face 公开发布，冲上热榜Top1，并提供了针对 GPU 和 CPU 架构的开源推理实现。

CPU推理仅29ms，微软开源第一个原生 1 bit 大模型，内存只需Qwen 1.5B的1/15-AI.x社区

现有的1bit模型要么是基于全精度模型的后训练量化（PTQ），导致性能显著下降；要么是规模较小的原生1bit模型；BitNet b1.58 2B4T 模型完全从头开始训练，核心创新是用自定义的 BitLinear 层替换了标准的全精度线性层。这些 BitLinear 层包括：

权重量化：在前向传播中，模型权重被量化为1.58bit，使用绝对均值（absmean）量化方案将权重映射到三元值{-1, 0, +1}。
激活量化：线性投影中的激活被量化为8bit整数，使用绝对最大值（absmax）量化策略，按token应用。
归一化：引入子层归一化（subln）以增强训练稳定性。

除了 BitLinear 层外，还集成了多种已建立的 LLM 技术以增强性能和稳定性，包括在前馈网络（FFN）子层中使用 ReLU2 激活函数、RoPE 以及去除所有线性层和归一化层的偏置项。

BitNet b1.58 2B4T 的训练过程包括三个阶段：

预训练：目标是赋予模型广泛的世界知识和基础语言能力。使用了两阶段学习率计划和权重衰减策略，以及包含公共文本和代码数据集的预训练语料库。
监督微调（SFT）：通过多样化的指令跟随和对话数据集增强模型的指令跟随能力和对话交互格式的性能。
直接偏好优化（DPO）：进一步使模型的行为与人类对有用性和安全性的偏好对齐，直接优化语言模型以使用偏好数据，避免了训练单独的奖励模型。

CPU推理仅29ms，微软开源第一个原生 1 bit 大模型，内存只需Qwen 1.5B的1/15-AI.x社区

https://arxiv.org/pdf/2504.12285
https://hf-mirror.com/microsoft/bitnet-b1.58-2B-4T
BitNet b1.58 2B4T Technical Report

本文转载自PaperAgent

标签

CPU

大模型

微软

相关推荐

AI下一个重大飞跃是理解情感！第一个具有情商的对话型AI来了

duhorse • 3964浏览 • 0回复
第一个能听懂人类语气的AI火了，网友：感觉在和真人交谈

Crystalcxt • 4745浏览 • 0回复
Alphafold可能成为第一个获诺贝尔奖的深度学习模型？

鱼虫子 • 3652浏览 • 0回复
ChatGPT是第一个真正意义的人工通用智能

ceesoft • 3843浏览 • 0回复
世界上第一个聊天机器人并非旨在成为聊天机器人

xuxiangda • 6389浏览 • 0回复
使用LangChain，上手开发我们第一个人工智能APP

ermulong • 3758浏览 • 0回复
Aria: 第一个多模态MoE | Pixtral 12B | AI教学新突破：DataEnvGym让模型自我进化

sbf_2000 • 3573浏览 • 0回复
Bitnet.cpp：微软开源1比特推理框架，CPU跑100B模型

老蛀虫 • 7366浏览 • 0回复
Qwen开源强大、多样、实用的Qwen2.5-Coder系列（0.5B/1.5B/3B/7B/14B/32B）

Halo咯咯 • 6587浏览 • 0回复
LLaVA-o1：第一个能够进行自发、系统推理的视觉语言模型，类似于 GPT-o1

Halo咯咯 • 3700浏览 • 0回复
使用Cursor和Claude AI打造你的第一个App

小虎哦哦 • 6637浏览 • 0回复
小模型界o1来了：微软推出Phi-4，数学推理能力太逆天！14B模型击败GPT-4o！还印证了AI墙的一个重要推断

51CTO技术栈 • 3384浏览 • 0回复
微软：GPT-4o-mini只有8B，o1-mini仅100B

PaperAgent • 3025浏览 • 0回复
Reyes：一个从0到1开始训练的多模态大模型（技术报告）

大模型自然语言处理 • 3499浏览 • 0回复
DeepSeek-R1-Distill-Qwen-1.5B 在某些基准测试中超越了 GPT-4o

Halo咯咯 • 1.4w浏览 • 0回复
阿里开源QwQ-32B，性能与Deepseek R1持平。一个拥有320亿参数的全新推理模型

Halo咯咯 • 3879浏览 • 0回复
Qwen原生多模态开源，浅析一下！

NLP前沿1 • 2823浏览 • 0回复
基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战

Baihai_IDP • 2292浏览 • 0回复
刚刚，Qwen3强势登顶，成开源新王！国内首个混合推理模型，235B击败R1、o1!源神火力全开

51CTO技术栈 • 3294浏览 • 0回复

PaperAgent

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

CPU推理仅29ms，微软开源第一个原生 1 bit 大模型，内存只需Qwen 1.5B的1/15

目录