
混合随机数技术在AI芯片设计中的原理与应用探索 精华
1. 背景
1.1 AI芯片设计的当前挑战与新兴计算范式概览
人工智能(AI)的飞速发展,特别是以Transformer为代表的深度学习模型的广泛应用,对计算硬件提出了前所未有的要求。传统的冯·诺依曼架构在处理这些大规模、高并行的AI负载时,其性能和效率日益受到“功耗墙”(power wall)和“架构墙”(architecture wall)的根本性制约。随着模型规模的持续膨胀,其计算复杂度和内存需求呈爆炸式增长,这迫使学术界和工业界必须跳出传统思维,积极探索超越二进制计算的新型计算范式。
一个核心的探索方向是:在保证技术可持续发展的前提下,对计算过程中严格的确定性约束进行适度松弛,以期在可接受的精度损失范围内,换取显著的性能与能效增益。在此背景下,一系列非传统计算范式应运而生,其中,随机计算(Stochastic Computing, SC)及其衍生的各类混合计算技术,因其独特的潜力而备受关注。这些新兴范式通过在不同层面引入近似或概率特性,为设计高能效、低成本的AI芯片提供了全新的思路,其共同目标是打破传统计算模式的束缚,更高效地匹配AI算法的内在特征。
最近一则来自中国的新闻报道引起了国际半导体和AI领域的广泛关注。据《南华早报》、俄罗斯卫星通讯社等多家中英文媒体报道,由北京航空航天大学(Beihang University)李洪革教授领导的团队,成功研发并实现了全球首款非二进制AI芯片的大规模量产和商业应用。这一突破的核心,是一种被命名为混合随机数(Hybrid Stochastic Number, HSN)的创新计算体系。通过对于北航团队论文的分析和之前的一些溯源,本文将尝试在这个领域做一下简单的科普性解读。
1.2 随机计算(SC)技术回顾
随机计算是一种独特的计算方法,它将数值表示为一串随机的比特流(Stochastic Number, SN),其中比特“1”出现的概率直接对应于该数值的大小。SC最主要的吸引力在于,它能够用极其简单的逻辑电路(例如,一个逻辑与门即可实现乘法)来执行复杂的算术运算,从而带来显著的硬件面积和功耗节省。此外,由于信息被编码在整个比特流的统计特性中,SC天然具有较强的容错能力,对个别比特的翻转不敏感,这使其在图像处理、数字滤波器设计等特定应用中展现了早期潜力。
然而,尽管SC拥有这些诱人的特性,其固有的瓶颈也严重限制了其在大规模、高性能AI计算中的广泛应用。这些瓶颈主要包括高计算延迟(为保证精度需要极长的比特流)、相对较低的精度(结果受随机波动影响)、信息密度低下(与二进制表示相比效率极低),以及高昂的数据转换开销(在二进制与随机系统间接口时耗时且引入误差)。这些根本性的缺陷使得纯粹的SC技术难以满足现代AI应用对高吞吐量和高精度的双重严苛需求。
1.3 混合随机数(HSN)技术的核心价值
为了克服纯SC技术的上述瓶颈,同时保留其在硬件成本和容错性方面的优势,混合随机数(Hybrid Stochastic Number, HSN)技术应运而生。HSN的核心思想,是巧妙地将传统二进制计算的高精度、高信息密度特性,与随机计算的低硬件成本、高容错性等优点进行深度融合。其提出的根本动机,正是在于解决SC在实际应用中面临的高延迟和低信息密度这两大关键痛点,从而使其能够更好地适配复杂的AI计算任务。
HSN并非简单地将两种技术并列使用,而是提出了一种内在地融合了二进制(BN)与随机数(SN)成分的统一数字表示方法。这种混合表示的关键优势在于,它能够在很大程度上避免在BN和SN之间进行频繁且代价高昂的显式转换,从而实现更高的计算效率和更低的系统延迟。
因此,HSN的设计哲学并非试图完全取代成熟的二进制计算体系,而是代表了一种务实的工程演进。它承认纯随机计算虽在理论上潜力巨大,但其硬伤使其难以在实际AI应用中大规模铺开。HSN通过一种智能的混合策略,将二进制的精确性注入随机计算的效率框架中,特别是通过大幅减少或优化转换器开销,使得随机计算的优点能够在缓解其固有缺陷的同时得以发挥。HSN技术方案已经开始应用于实际芯片制造并进入量产阶段,这充分证明了其作为一种实用化解决方案的巨大潜力。
2. 随机计算(SC)基本原理
2.1 SC中的数据表示:单极性与双极性码流
在随机计算中,数值并非以传统的多位二进制形式存在,而是被编码为一串随时间(或空间)展开的随机比特序列。比特流中“1”出现的概率直接对应于所表示的数值。主要有两种基本的数据表示格式:
- 单极性(Unipolar)表示:通常用于表示区间 `` 内的数值。如果一个长度为
N
的随机比特流中包含n₁
个“1”,那么它所代表的单极性数值x
为x = P(1) = n₁/N
。 - 双极性(Bipolar)表示:用于表示区间
[-1, 1]
内的数值。一种常见的实现方式是使用概率P(1)
来编码数值x
,其关系为x = 2×P(1) - 1
。
将传统的二进制数转换为随机比特流(B2P转换)通常需要一个随机数生成器(SNG),其核心组件包括一个伪随机数发生器(PRNG,常用LFSR)和一个比较器。在每个时钟周期,比较器将输入的二进制数与PRNG生成的随机数进行比较,从而决定输出比特流的当前位是“0”还是“1”。
2.2 SC基本逻辑运算单元及其电路实现
SC最引人注目的特点之一是其能够用非常简单的逻辑门电路实现复杂的算术运算。
- 乘法(Multiplication):对于两个独立的单极性随机数
Xₐ
和Xₑ
,它们的乘积可以通过将这两个比特流输入一个逻辑与门(AND gate)来实现。对于双极性随机数,乘法通常可以通过一个异或非门(XNOR gate)来实现。这种用单个逻辑门实现乘法的方式,相比于复杂的二进制乘法器,极大地节省了硬件资源。 - 加法(Addition):SC中的加法相对复杂且通常是近似的,常用的是缩放加法。对于单极性数
Pₐ
和Pₑ
,它们的缩放加法(Pₐ + Pₑ)/2
可以通过一个2选1多路选择器(MUX)实现,其选择信号是一个概率为0.5的随机比特流。然而,这种加法会导致信息损失,是SC精度问题的一个主要来源。 - 其他运算:更复杂的函数,如激活函数(tanh、sigmoid等),可以通过组合基本逻辑门或使用小型的有限状态机(Finite State Machine, FSM)来近似实现。
2.3 SC技术的固有优势与主要局限性分析
随机计算技术因其独特的计算方式,展现出一系列区别于传统二进制计算的优势和劣势。其固有优势主要包括:极低的硬件成本(尤其是乘法器)、高容错性(对软错误不敏感),以及潜在的低功耗特性。
然而,其主要局限性也同样突出且致命:
- 高延迟/长计算时间:为达到可接受的精度,通常需要极长的比特流(数百到数千位),导致计算延迟非常高。
- 低精度/结果不确定性:由于随机波动,计算结果本质上是近似的,精度与比特流长度
N
成正比(误差通常与1/√N
相关)。 - 数据转换开销:在实际系统中,B2P和P2B的转换过程不仅需要额外硬件,还会引入延迟和误差。
- 信息密度低:一个
N
比特的随机流的信息承载能力远低于一个N
比特的二进制数。 - 相关性问题:许多SC运算的正确性依赖于输入流的统计独立性。然而,实际硬件中由PRNG生成的比特流可能存在不希望的相关性,这会破坏概率运算的数学基础,严重影响计算的准确性。
这些局限性,特别是高延迟和低精度,是阻碍SC技术在主流高性能计算(包括大多数AI应用)中得到广泛应用的核心原因。
3. 混合随机数(HSN)技术深度解析
3.1 HSN的精确定义、数字结构与表示方法
混合随机数(HSN)是一种旨在融合传统固定基数二进制数(BN)与随机数(SN)表示优点的新型数字系统。它并非简单地将两种表示并列使用,而是提出了一种统一的框架,使得数值本身就包含二进制和随机两种成分。HSN的提出旨在统一BN、SN以及HSN自身的表示,并探讨了它们之间的数学描述和转换关系。
其核心思想是将一个数值 X
分解或表示为确定性部分(通常是二进制)和概率性部分(随机比特流)的某种组合。例如,一个HSN可以被定义为一个元组 (B, S)
,其中 B
是一个二进制数,代表数值的主要部分或整数部分,而 S
是一个随机比特流,代表数值的次要部分或小数部分。HSN是从BN和SN的数制中首次提出的混合表示方法,其目标是实现比传统SN更高的效率和更低的延迟,一个关键途径就是避免BN和SN之间的显式转换器。
3.2 HSN中二进制与随机数表示的融合机制
HSN中二进制与随机数表示的融合机制是其核心创新所在。这种融合并非简单的拼接,而是要在运算层面实现两种表示的协同工作。其关键在于如何设计HSN的算术逻辑单元,使其能够直接处理这种混合表示的数。
一种可能的融合机制是将一个数 X
表示为 X = B + ε·S_val
,其中 B
是一个 m
位的二进制整数或定点数,ε
是一个缩放因子,而 S_val
是由随机比特流 S
所代表的概率值。当进行运算时(如加法 X₁ + X₂
),HSN算术单元会分别处理二进制部分(B₁ + B₂
)和随机部分(ε·S_val₁ + ε·S_val₂
),并设计专门的逻辑来处理两者之间的进位和交互。这种设计使得大部分数值的精度由稳定且高效的二进制逻辑来保证,而随机逻辑则用于处理精度要求较低的部分或用于实现硬件成本极低的特定运算(如乘法),从而在系统层面实现了性能与成本的最佳平衡。
3.3 HSN技术的核心优势:低延迟、高精度与硬件效率
通过上述的混合机制,HSN成功地将SC的优点与二进制计算的优点相结合,直接解决了SC的主要痛点。
- 显著降低延迟:由于数值的主要部分由二进制并行处理,HSN不再需要像纯SC那样依赖极长的比特流来表示整个数值并等待其收敛。二进制部分可以实现即时计算,大大缩短了整体运算延迟。
- 精度提升与可控性:二进制部分的引入使得HSN能够达到比纯SC高得多的计算精度。二进制部分可以精确表示数值的整数部分或高有效位,而随机部分引入的误差可以被限制在较小的范围内,使得HSN的精度更易于控制和预测。
- 保持硬件效率:虽然HSN的电路比纯SC的极简电路略微复杂,但由于它显著减少了对超长比特流处理单元(如极长的计数器、SNG)的需求,并优化了整体计算流程,HSN仍然能够保持较高的硬件效率。论文 提到HSN对应“超低面积电路”,论文也强调了HSN在克服“功耗墙”和“架构墙”方面的潜力。
3.4 HSN的编码、解码及转换策略
HSN设计的一个核心目标是尽可能减少或避免在计算过程中进行显式的、代价高昂的BN和SN之间的完整转换。理想情况下,HSN的算术运算应该直接在混合域内完成。
论文提出了一种针对HSN的重编码方法(recoding method),这是一个重要的内部转换策略。该方法旨在解决HSN在运算过程中可能出现的位宽累积问题。这种重编码技术据称具有高精度,并且仅需一个时钟周期的延迟就能有效减少HSN的位宽。更重要的是,它使得在纯HSN域内构建流水线结构成为可能,避免了在计算中途进行数据格式转换,从而保持了计算的流畅性和高效率。
这种“最小化转换税”的理念是HSN发挥其混合优势的关键。它不仅在于其混合的数字表示本身,更在于其配套的算术单元和数据流设计,这些设计能够高效地处理HSN格式的数据,并尽可能地将运算限制在混合域内部。
表1:随机计算(SC)与混合随机数(HSN)关键特性对比
参数 (Parameter) | 随机计算 (SC) | 混合随机数 (HSN) |
数据表示 | 纯概率比特流(单极性/双极性) | 二进制与概率比特流的混合表示 |
运算延迟 | 高(依赖长比特流以保证精度) | 显著降低(二进制部分快速处理) |
计算精度 | 相对较低,受随机波动影响 | 较高且更可控(二进制部分保证基础精度) |
硬件成本 | 极低(如AND门乘法) | 相对较低,追求“超低面积电路” |
转换器需求 | B2P和P2B转换器开销大 | 显著减少或避免显式转换 |
容错性 | 高(对软错误不敏感) | 保持较好的容错性(随机部分贡献) |
信息密度 | 低 | 显著高于纯SC(二进制部分信息密度高) |
应用场景 | 对硬件成本和容错性要求高,但对精度和速度要求不极致的场景 | 旨在平衡精度、速度与硬件效率,更适用于对性能有一定要求的AI计算 |
通过此表对比可见,HSN通过牺牲SC的部分极简性,换取了在延迟、精度和信息密度等关键性能指标上的显著提升,使其在AI芯片设计领域展现出比纯SC更广阔的应用前景。
4. HSN技术在AI芯片设计中的核心应用
HSN技术凭借其在延迟、精度和硬件效率方面的均衡优势,在AI芯片设计的多个关键环节展现出重要的应用潜力,特别是在构建高能效的神经网络加速器方面。
4.1 面向神经网络的HSN计算架构
HSN的低功耗、小面积特性使其非常适合用于设计面向神经网络的计算架构,特别是对于资源受限的边缘AI设备而言。论文明确指出,其关于混合随机计算的研究成果已应用于深度神经网络(DNN)的硬件实现,并采用标准的40纳米低功耗CMOS工艺进行了流片。另据报道,中国北京航空航天大学的李洪革教授团队利用HSN技术研制的新型AI芯片已经进入量产阶段,并基于HSN原理采用28纳米CMOS工艺制造了一款用于机器学习的高效乘法器芯片。这些实例充分证明了HSN在神经网络计算架构中的可行性和应用价值。
4.2 基于HSN的高能效乘累加(MAC)单元设计
乘累加(MAC)运算是神经网络中最为核心和计算密集型的操作。HSN技术在设计高能效MAC单元方面具有巨大潜力。论文提到,HSN中的基本算术运算可以对应于“超低面积的电路”,这对于构建大规模并行的MAC阵列至关重要。前述的40纳米HSN DNN芯片拥有高达4544个MAC单元,这显示了HSN架构在支持大规模并行MAC运算方面的能力。在基于HSN的MAC单元设计中,关键在于如何有效地结合二进制和随机两部分的表示来执行乘法和累加操作,以实现效率和精度的最佳平衡。
4.3 HSN环境下激活函数的实现方法与挑战
激活函数在神经网络中引入非线性,是构成深度神经网络的关键组件。然而,在传统的随机计算(SC)领域,高效且精确地实现非线性激活函数一直是一个显著的挑战。对于HSN而言,如何在保持其混合计算优势的前提下有效实现激活函数,同样是一个需要重点关注的问题。
论文展示了一种基于HSN的逐次逼近法来实现激活函数,该方法通过一个迭代过程,在HSN域内直接生成激活函数的输出HSN。这正是朝着正确方向进行的有益探索。因为如果HSN在处理激活函数时,需要频繁地将HSN完全转换回二进制,在二进制域计算,然后再转换回HSN格式,那么HSN的核心优势之一——即减少转换器开销——就会在这一关键环节大打折扣。因此,开发能够在HSN域内(或尽可能接近HSN域)高效、准确地实现各种常用激活函数的方法,对于HSN技术在深度学习领域的整体竞争力至关重要。
4.4 HSN技术在AI芯片实例中的性能表现
已有的研究和报道提供了一些关于HSN技术在实际AI芯片或计算单元中的性能数据,初步展示了其在功耗、面积和速度方面的潜力。
- 论文描述的40纳米HSN DNN芯片,核心面积为0.53 mm²,在400 MHz时钟下功耗为102.3 mW,集成了4544个MAC单元。
- 据报道,基于HSN技术的AI芯片(110纳米工艺)可达到微秒(µs)级别的片上计算延迟,这对于需要快速响应的AI应用非常重要。
- 论文中提出的HSN重编码方法,在应用于多项式计算电路时,据称能够节省超过80%的硬件资源。
表2:基于HSN及相关混合计算的AI计算单元/芯片关键性能指标案例
设计/芯片案例 (Design/Chip Example) | 工艺节点 (Process Node) | 核心指标 (Key Metrics) | 来源 (Source) |
HSN DNN芯片 | 40 nm CMOS | 核心面积: 0.53 mm²; 功耗: 102.3 mW; 时钟: 400 MHz; 4544 MACs | 论文 |
HSN AI芯片 (通用) | 110 nm | 低功耗, 微秒级延迟 | 论文 |
HSN 机器学习乘法器芯片 | 28 nm CMOS | 高效, 低功耗 | 论文 |
带重编码的HSN多项式电路 | 未指定 | 硬件资源节省 >80% | 论文 |
这些案例数据虽然来自不同的设计和工艺节点,但共同指向一个趋势:HSN及其相关的混合计算技术确实有潜力在AI硬件实现中提供有竞争力的功耗、面积和性能表现。
5. HSN技术面临的挑战与未来
尽管HSN技术展现出诸多优势和应用潜力,但在其发展和广泛应用的过程中,仍面临一系列技术挑战,这些挑战也指明了未来的研究方向。
5.1 HSN设计与实现中的关键技术难题
HSN设计中的核心难题包括:精度与动态范围的权衡,即如何优化二进制与随机部分的资源分配以满足不同应用的需求;混合信号处理与接口的复杂性,确保HSN单元内部及与其他模块间的高效协同;高效的HSN原生算法开发,使算法能充分利用HSN的计算特性;以及测试与验证的挑战,如何定义和确保一个混合了确定性与概率性逻辑的系统的“正确性”。此外,在复杂运算中如何普适地管理和控制位宽累积,也是设计中需要仔细考虑的因素。
5.2 HSN技术的优化路径与前沿研究热点
针对上述挑战,HSN技术的未来发展可以从以下几个方面展开:HSN编码方案的进一步优化,以提高信息密度和运算效率;HSN专用编译器和设计自动化(EDA)工具的开发,以降低设计门槛,加速产业化;与忆阻器等新兴器件和技术的结合,以实现更高效、更紧凑的HSN计算单元;HSN容错机制的增强与利用,设计更全面的整体容错方案;以及面向特定AI应用的HSN架构定制,如为Transformer模型设计专用的HSN加速器。
5.3 HSN在下一代AI芯片中的应用前景展望
展望未来,HSN技术凭借其综合优势,有望在下一代AI芯片中扮演重要角色。在边缘计算与物联网(IoT)AI领域,HSN有望实现高能效的端侧智能处理。在高能效AI加速器领域,面对大型语言模型(LLM)等带来的巨大计算压力,HSN提供了一种平衡性能与成本的有吸引力的技术路径。
特别值得关注的是,中国在HSN技术领域的研发和产业化方面取得了显著进展,例如利用国内成熟的半导体制造工艺(如110纳米)进行HSN芯片的量产。在全球芯片供应链面临不确定性的背景下,依托本土成熟工艺发展HSN这类创新计算架构,是中国在AI硬件领域寻求技术自给与差异化竞争的一条重要途径。如果HSN能够利用这些成熟工艺节点在特定AI负载上实现具有竞争力的性能功耗比,那么它不仅能保障供应链安全,还可能在全球AI芯片市场中开辟出一条独特的发展道路。
6. 结论
6.1 HSN技术对AI芯片设计领域的核心贡献总结
混合随机数(HSN)技术作为一种新兴的计算范式,为AI芯片设计领域带来了重要的创新。它通过将传统二进制计算的精确性与随机计算的低硬件成本等优势相结合,有效地缓解了当前AI芯片面临的“功耗墙”和“面积墙”等挑战。
HSN的核心贡献在于,它创建了一种能够内在地、协同地利用两种数制特性的混合运算机制,从而显著克服了纯随机计算(SC)在计算延迟过高和精度不足方面的主要障碍。这使得随机计算的原理能够被应用于对性能要求更高的AI任务中。已有研究和原型芯片的成功流片,初步验证了HSN技术在实际AI硬件中的可行性和性能优势。
6.2 对未来研究和工程应用的启示
HSN技术的发展仍处于不断演进的阶段,其未来充满机遇,并为研究和工程应用指明了若干重要方向:
- 核心机制优化:持续深化对HSN编码、算术逻辑和内部转换策略的优化。
- 设计生态构建:开发支持HSN架构的专用编译器和EDA工具链,是其产业化进程的关键。
- 前沿技术融合:探索HSN与忆阻器、三维集成等新兴技术的结合,有望催生性能更优越的AI芯片。
- 应用驱动创新:针对不同AI算法和场景,设计定制化的HSN处理器架构,以最大化其能效优势。
- 理论基础深化:加强对HSN计算过程中的精度、误差、可靠性等基础理论问题的研究。
总而言之,混合随机数技术为AI硬件领域带来了新的视角和强大的工具。它不仅为解决当前AI芯片面临的瓶颈问题提供了有效途径,也为未来AI技术向更高能效、更广泛应用普及的演进注入了新的活力。随着相关研究的不断深入和工程实践的持续推进,HSN有望在下一代AI芯片的版图中占据重要一席,并对整个计算技术领域产生深远影响。
参考论文:
《Hybrid Stochastic Number and Its Neural Network Computation》
DOI Bookmark: 10.1109/TVLSI.2023.3332170
本文转载自上堵吟,作者:一路到底的孟子敬
