扔掉浮点数！1和-1组成的神经网络，如何实现58倍加速？

FairyGirlhub

发布于 2025-9-18 07:33

浏览

0收藏

2016年，深度学习领域还在热衷于构建越来越大的模型时，一篇名为《Binarized Neural Networks》的论文横空出世。

提出了一个看似疯狂的想法：将神经网络中的权重和激活值全部压缩到只有+1和-1两种状态。

扔掉浮点数！1和-1组成的神经网络，如何实现58倍加速？-AI.x社区图片

📑论文地址：https://arxiv.org/pdf/1602.02830

这种“极致量化”的方法不仅让模型大小缩小了32倍，还将耗电的浮点数乘法变成了高效的位运算。

今天，就让我们一起解读这项改变深度学习部署格局的里程碑工作。

1.为什么需要“二值化”？

深度学习遭遇资源瓶颈，大模型遇到大麻烦

在深入论文之前，我们首先需要理解为什么研究者要探索如此极端的技术路径。

传统神经网络的资源瓶颈

一个典型的现代神经网络可能包含数百万甚至数十亿个参数。

每个参数通常使用32位浮点数表示，每一次前向传播都需要执行数百万次浮点乘加运算。

扔掉浮点数！1和-1组成的神经网络，如何实现58倍加速？-AI.x社区图片

这种计算模式带来三个核心问题：

巨大的存储需求：像ResNet-50这样的经典模型，权重文件就需要超过100MB的存储空间
高计算能耗：浮点数乘法在硬件上是极其耗电的操作
内存带宽瓶颈：在许多情况下，从内存中读取数据比实际计算更加耗时和耗能

边缘计算的崛起与挑战

随着物联网和移动设备的发展，我们越来越需要在资源受限的环境（如手机、摄像头、传感器）中直接运行AI模型，而不是依赖云端计算。

扔掉浮点数！1和-1组成的神经网络，如何实现58倍加速？-AI.x社区图片

这一趋势使得模型压缩和加速技术成为推动AI在边缘设备广泛应用的关键因素。

"二值神经网络"（Binarized Neural Networks, BNN）正是在这种背景下应运而生，它代表了模型压缩技术的极致追求。

2.如何实现这种“极致量化”？

二值化神经网络横空出世，用1比特存储权重

二值神经网络的核心思想非常简单粗暴：将传统神经网络中32位浮点数的权重和激活值全部约束为只有两个值：+1或-1。

扔掉浮点数！1和-1组成的神经网络，如何实现58倍加速？-AI.x社区图片

在硬件实现上，这两个值可以用单个比特表示（0表示+1，1表示-1），这意味着原本需要32位表示的数据现在只需要1位。

理论上的内存节省正好是32倍。理解BNN的一个好方法是将其与数字电子技术类比。

传统神经网络像是使用模拟信号（连续值），而BNN则像是使用数字信号（离散值）。

虽然数字信号损失了一些信息，但它具有抗噪声能力强、易于处理和传输的优势。

BNN看似简单的概念背后，隐藏着精妙的技术设计。如何用二值化的参数和激活值来训练和运行神经网络，并保持一定的精度。

其主要方法可以概括为以下几点：

二值化函数（Binarization Function）

首先，什么是二值化？简单来说，就是通过一个符号函数（Sign Function）来处理数值：如果输入大于等于0，输出+1；否则输出-1。

扔掉浮点数！1和-1组成的神经网络，如何实现58倍加速？-AI.x社区图片

但问题来了：这样的二值化函数在反向传播中几乎不可导，梯度无法传播，网络无法训练。这似乎是一个死结。

论文最精彩的部分就在于提出了直通估计器（Straight-Through Estimator, STE）这一巧妙的解决方案。

扔掉浮点数！1和-1组成的神经网络，如何实现58倍加速？-AI.x社区图片

在前向传播（Forward）中，使用一个非常简单的符号函数（Sign Function）来进行二值化：

扔掉浮点数！1和-1组成的神经网络，如何实现58倍加速？-AI.x社区

在反向传播（Backward）中，Sign函数的导数几乎处处为0，这会导致梯度无法传播。STE巧妙地绕开了这个问题，它使用一个饱和的Hard Tanh函数的梯度来作为Sign函数的近似梯度：

扔掉浮点数！1和-1组成的神经网络，如何实现58倍加速？-AI.x社区

这使得梯度可以有效地反向传播回全精度的权重（见下一点）。

训练高精度的“隐变量”（Latent Weights）

这是BNN训练的关键。BNNs在训练过程中并不直接更新二值化的权重（Binarized Weights）。相反，它维护一个全精度（float32）的权重副本，称为“隐权重”或“真实权重”。

在每次前向传播时，将这个全精度权重二值化，得到，然后用去计算。

扔掉浮点数！1和-1组成的神经网络，如何实现58倍加速？-AI.x社区图片

在反向传播时，梯度会通过STE更新到那个全精度的权重副本上。

这个全精度的权重积累了训练过程中所有的微小梯度更新，包含了网络学习到的知识，是训练过程的“主力军”。

这样，既享受了二值化带来的计算效率，又保证了训练过程的稳定性和最终模型的精度。

二值化矩阵乘法与卷积的优化

BNN的真正威力体现在推理过程中。当权重和激活值都二值化后，最耗时的矩阵乘法和卷积操作可以被极大地简化。

扔掉浮点数！1和-1组成的神经网络，如何实现58倍加速？-AI.x社区图片

传统的乘加运算（MAC）被替换为位运算（XNOR）和位计数（Popcount）。

+1 可以映射为比特0
-1 可以映射为比特1

那么，两个二值向量的点积 A · B 就等价于：A XNOR B，然后计算结果中 1 的位计数，最后再做一个简单的线性变换。

由于XNOR和popcount操作在硬件上的速度极快、能耗极低，理论上可以获得32倍的内存节省和58倍的运算加速（与float32相比）。

第一层与最后一层的处理

当然，BNN在实践中也需要一些特殊处理，特别是在网络的输入层和输出层。

对于输入层，由于图像的像素值通常是8位整数（0-255），不是二值的。直接二值化会带来较大的信息损失。

因此，论文建议第一层的输入保持为8位精度，只有第一层的权重是二值的。由于第一层计算量通常只占整个网络的很小一部分，这对整体加速影响不大。

扔掉浮点数！1和-1组成的神经网络，如何实现58倍加速？-AI.x社区图片

而在输出层中，最后一层通常产生用于分类的概率分布，也需要更高的精度。因此，最后一层的权重和激活也通常保持为高精度。

这种灵活的处理策略体现了论文作者的实用主义思想：在关键地方极端优化，在必要地方保持精度。

3.实验结果与结论

精度与效率的平衡，在ImageNet上的表现

那么，BNN在实际数据集上的表现如何呢？

在MNIST、CIFAR-10、SVHN等中小型数据集上，BNN达到了与全精度网络非常接近的精度，证明了方法的有效性。

扔掉浮点数！1和-1组成的神经网络，如何实现58倍加速？-AI.x社区图片

但在大型数据集ImageNet（使用AlexNet架构）上，BNN与全精度模型相比存在明显的精度差距——Top-1准确率下降约10%以上。

这表明极端二值化确实会带来一定的信息损失，在处理复杂问题时尤为明显。

但这换来的是模型大小缩小约32倍，推理速度显著加快，能耗大幅降低。

扔掉浮点数！1和-1组成的神经网络，如何实现58倍加速？-AI.x社区图片

对于很多场景，这种 trade-off 是完全值得的。

毕竟，让AI模型能够在资源受限的设备上运行，远比追求那几个百分点的精度提升更为重要。

结语

二值神经网络的研究给我们带来的不仅是具体的技术方案，更是一种思维方式的启示：通过极致简化挑战复杂问题。

在AI模型越来越庞大、越来越复杂的今天，BNN代表了一种反向的思考方向：如何用最少的资源实现最大的价值。这种思维不仅在技术上具有重要意义，也符合可持续发展的大趋势。

本文转载自Fairy Girl，作者：Fairy Girl

标签

神经网络

浮点数

trade-off

相关推荐

在神经网络中实现反向传播

mb61e52f0ac174a • 3367浏览 • 0回复
神经网络的通用训练流程

AI探索时代 • 3904浏览 • 0回复
你知道神经网络是怎么运作的吗？神经网络内部原理解析

AI探索时代 • 3604浏览 • 0回复
SDM: 第三代神经网络和扩散模型强强联合！FID最多超基线12倍，能耗省60%，实力SOTA！

angel • 4787浏览 • 0回复
什么是神经网络-终于把神经网络参数更新搞明白了！

人工智能训练营 • 2677浏览 • 0回复
Transformer编码器与解码器和神经网络之间的关系

AI探索时代 • 3412浏览 • 0回复
什么是神经网络？神经网络开发框架——PyTorch和架构Transformer的区别和联系

AI探索时代 • 3953浏览 • 0回复
神经网络是怎么学习的？

AI探索时代 • 2669浏览 • 0回复
怎么学习设计和训练一个大模型——也就是神经网络？

AI探索时代 • 2653浏览 • 0回复
关于神经网络的输入格式——数据集的处理，关于神经网络模型的结构说明

AI探索时代 • 3286浏览 • 0回复
关于神经网络的一些思考与感受

AI探索时代 • 2546浏览 • 0回复
什么是神经网络-终于把神经网络参数更新搞明白了反向传播详解

人工智能训练营 • 3070浏览 • 0回复
从一个简单的神经网络模型开始

AI探索时代 • 2566浏览 • 0回复
怎么实现一个神经网络？神经网络的组成结构

AI探索时代 • 2973浏览 • 0回复
不同神经网络之间的区别，仅仅只是网络结构的不同，明白了这个你才能知道应该怎么学习神经网络

AI探索时代 • 2870浏览 • 0回复
神经网络的每一层都是干嘛的？这才是神经网络结构的核心

AI探索时代 • 2768浏览 • 0回复
神经网络的两个重难点之一，数据处理和模型设计

AI探索时代 • 2432浏览 • 0回复
什么是神经网络-循环神经网络RNN各层详解及实例展示

人工智能训练营 • 3820浏览 • 0回复
什么是神经网络：反向传播如何更新网络参数

人工智能训练营 • 1950浏览 • 0回复

FairyGirlhub

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

扔掉浮点数！1和-1组成的神经网络，如何实现58倍加速？

1.为什么需要“二值化”？

传统神经网络的资源瓶颈

边缘计算的崛起与挑战

2.如何实现这种“极致量化”？

二值化函数（Binarization Function）

训练高精度的“隐变量”（Latent Weights）

二值化矩阵乘法与卷积的优化

第一层与最后一层的处理

3.实验结果与结论

结语

目录