
循环网络能否提升推理能力?分层推理模型已经问世! 原创
通用人工智能(AGI)作为人工智能领域的核心目标,已被学界与产业界广泛探讨多年。然而,当前主流的大型语言模型(LLMs)即便在性能上表现突出,但在解决复杂推理任务时仍存在显著局限,远未达到AGI所要求的自主推理与问题解决能力。此类复杂任务往往需要多维度的模式识别、抽象知识生成,以及迭代式的推理能力优化——即便对人类而言,也需投入大量时间与精力方可完成。
在此背景下,一种名为“分层推理模型”(Hierarchical Reasoning Model)的新型架构应运而生,不仅在人工智能研究领域引发广泛关注,更在性能测试中超越了GPT-5、Deepseek R1、Claude Opus 4及OpenAI o3等知名大型语言模型。本文将系统阐释分层推理模型的核心内涵,剖析其技术特性,并论证其在推动AGI落地进程中的领先地位。
当前主流推理模型的技术瓶颈
当前,几乎所有用于推理任务的Transformer模型均依赖“思维链”(Chain of Thought, CoT)机制。在该机制下,模型接收输入后,会生成一系列自然语言标记以呈现完整推理过程(类似Deepseek模型的推理范式),直至输出最终结论。
然而,这种推理模式存在明显缺陷:一方面,冗长的推理痕迹生成需经过多次前向传播,会显著扩大上下文窗口,导致计算效率降低、数据消耗激增;另一方面,尽管“思维链”通过将复杂问题拆解为中间步骤实现多阶段推理,但一旦在推理初期或中期出现错误,该错误会沿推理链持续传播,最终导致结论失准——这一“错误累积”问题,成为制约Transformer模型推理精度的关键瓶颈。
【传统推理模型流程图】
从模型架构演进来看,传统Transformer模型通常由多个Transformer块构成,每个模块本质上是典型的因果注意力型结构,集成了多头注意力、RoPE位置嵌入、前馈网络、归一化层及残差连接等核心组件。
上述图表展示,Transformer模型的性能会随架构规模扩大而提升:初期通过增加“宽度”(即隐藏层维度与注意力头数)实现性能增长,后续通过增加“深度”(即Transformer块数量)进一步突破性能上限。但当模型参数规模达到特定阈值后,深度的增加不再带来性能提升,反而陷入“性能饱和”状态,无法满足复杂推理任务对模型深度的需求。
为突破这一局限,研究人员尝试引入循环网络架构(Recurrent Network Architecture):通过循环块设计,可在共享参数集的前提下实现“任意深度”的推理计算,大幅降低参数冗余。然而,循环网络同样面临挑战——随着迭代次数增加,模型的隐藏状态会不断变化,易出现类似“灾难性遗忘”的现象,导致模型逐渐丢失对原始问题陈述的理解,削弱推理的连贯性与准确性。
尽管可通过“输入注入”(又称“回忆机制”)将嵌入后的输入数据引入每次迭代的循环块,以保留问题背景信息,但实验显示,当循环迭代次数超过临界值时,模型性能仍会随深度增加而下降,未能从根本上解决推理能力与模型深度的适配问题。
现在我们已经了解了在涉及基于推理的任务时所遇到的一些问题。现在,我们继续探讨一下分层推理模型的运行原理,及其解决上述问题的具体机制。
分层推理模型的核心架构与技术原理
模型设计的生物学灵感
分层推理模型的核心创新源于对人类大脑神经机制的模拟——人类大脑存在“跨频率耦合”机制,能够将θ频率(慢频率,关联抽象认知)与γ频率(快频率,关联具体计算)的神经活动相互协同,实现“高层规划-低层执行”的高效认知流程。
基于这一原理,分层推理模型摒弃了传统Transformer“单一频率推理”的架构,构建了“双重循环回路系统”,通过两种功能差异化的循环神经网络(RNN)协同生成输出,彻底改变了传统模型“基于前序标记预测下一词”的单一逻辑。
具体而言,分层推理模型的认知过程呈现“双向协同”特征:在低层维度,模型以快频率进行具体计算与初步推理;在高层维度,模型以慢频率进行抽象思考与全局规划,并为低层推理提供方向指导。这种“快慢结合、高低协同”的架构,完美复刻了人类解决复杂问题时“先规划、再执行、后修正”的思维模式,为提升推理的准确性与效率奠定了基础。
分层推理模型内部运作机制
在当前研究案例中,分层推理模型并未开展任何预训练工作。对于传统大型语言模型的构建而言,预训练是不可或缺的核心步骤——通常需向模型输入数十亿至数万亿量级的数据样本,使其通过海量数据学习语言规律、知识关联与任务模式,这类经过大规模预训练的模型被定义为“基础模型”。而分层推理模型的技术路径与基础模型存在本质差异,其并未依赖基础模型的预训练框架与数据基础。
由于分层推理模型不具备基础模型所特有的任务泛化能力,因此无法像基础模型那样通过海量数据学习实现跨场景、跨任务的知识迁移与规律概括。与之相对,该模型的能力评估依托ARC-AGI体系展开,重点衡量其在“直觉判断”与“逻辑谜题求解”两大维度的表现;训练过程则采用强化学习方式:当模型能够在最优时机终止推理流程并输出正确结果时,系统会给予正向奖励,以此驱动模型逐步优化推理决策逻辑,提升任务解决精度。
在推理机制上,分层推理模型采用了与传统模型截然不同的技术策略——其创新性融合了“输入注入组件”与“循环网络架构”的核心优势。具体而言,该模型在推理过程中仅输出最终结果,不对外呈现任何中间推理轨迹;所有推理运算(包括多步骤逻辑推导、数据处理与决策判断)均在单次前向传播过程中于模型内部完成,既规避了中间步骤错误传播的风险,又大幅提升了推理效率。
分层推理模型采用“双模块复用”设计,两个核心模块均为循环网络,且拥有独立的参数与权重集,避免功能混淆与参数干扰:
- H模块(高级模块):聚焦于抽象推理与全局规划,负责分析问题本质、制定推理策略、修正低层模块的局部偏差,确保推理方向与问题目标一致;
- L模块(低级模块):聚焦于快速计算与步骤执行,依据H模块制定的规划,完成具体的推理步骤计算,生成初步结果并反馈至H模块。
分层推理模型的工作流程与训练机制
多阶段嵌套循环推理流程
分层推理模型的工作流程以“输入-迭代-收敛”为核心逻辑,具体可分为四个步骤:
- 输入嵌入转换:原始输入数据首先通过可训练的嵌入层,转换为机器可读的向量形式,为后续推理提供基础数据;
- 初始状态初始化:设定H模块(z0_H)与L模块(z0_L)的初始隐藏状态,确保模型推理从统一基准启动;
- 嵌套循环迭代(核心步骤):
- L模块优先运行:接收输入嵌入、自身初始隐藏状态(z0_L)与H模块初始隐藏状态(z0_H),完成T步推理计算,更新自身隐藏状态并生成初步结果;
- 结果上传与规划调整:L模块将更新后的隐藏状态与初步结果上传至H模块,H模块结合自身先前隐藏状态,分析结果偏差、调整推理规划,更新自身隐藏状态;
- 循环迭代直至收敛:H模块将调整后的隐藏状态(新规划)下传至L模块,L模块再次运行T步计算并反馈结果;上述过程重复N次(形成“N次高层循环、N*T次低层循环”的嵌套结构),直至模型“收敛”(即H模块与L模块的输出结果均稳定,且符合问题目标);
代码示例:
def hrm(z, x, N=2, T=2):
x = input_embedding(x)
zH, zL = z
with torch.no_grad():
for _i in range(N * T - 1):
zL = L_net(zL, zH, x)
if (_i + 1) % T == 0:
zH = H_net(zH, zL)
# 1-step grad
zL = L_net(zL, zH, x)
zH = H_net(zH, zL)
return (zH, zL), output_head(zH)
# Deep Supervision
for x, y_true in train_dataloader:
z = z_init
for step in range(N_supervision):
z, y_hat = hrm(z, x)
loss = softmax_cross_entropy(y_hat, y_true)
z = z.detach()
loss.backward()
opt.step()
opt.zero_grad()
- 最终结果生成:将收敛后H模块的隐藏状态传入可训练输出层,生成最终标记(即问题答案)。
这种流程设计彻底解决了传统循环网络“过早收敛”的问题:当L模块出现收敛趋势(可能陷入局部最优)时,H模块会通过调整规划重新启动推理过程,使模型能够突破“深度限制”,实现更高维度的推理计算。
高效稳定的训练机制
传统循环网络的训练依赖“通过时间的反向传播(BPTT)”,需沿每个推理步骤反向传播损失,不仅消耗大量内存,还易随推理链长度增加出现“梯度爆炸”或“梯度消失”问题,导致训练不稳定。分层推理模型采用“一步梯度近似”替代BPTT,实现了训练效率与稳定性的双重突破:
- 内存消耗优化:无需展开时间步进行反向传播,无论推理步骤多少,内存占用量始终保持稳定,大幅降低硬件资源需求;
- 训练稳定性提升:通过“一步梯度近似”规避了梯度沿步骤传播的累积效应,从根本上解决了梯度爆炸与消失问题;
- 深度监督强化:将每次迭代定义为一个“段”,每个段的梯度不回溯至前序段,通过“递归深度监督”确保每个迭代阶段的推理质量,进一步优化模型性能。
此外,模型增设“暂停环节”:H模块的最终隐藏状态不会直接传入输出层,而是先经过“暂停环节”判断是否需要继续迭代——若当前结果未达最优,则启动下一轮N次循环;若结果已满足需求,则停止推理并输出答案。这种机制使模型能够根据任务复杂度动态调整“思考时间”:简单任务减少迭代次数以提升效率,复杂任务增加迭代次数以保证精度,实现了“效率与精度的动态平衡”。
分层推理模型的优势与AGI发展意义
分层推理模型的不断发展标志着我们对人工智能推理理解方面的一次重要进步。这些模型表明,有效的推理可以通过受人类大脑启发的结构化循环来实现。这些模型展示了RNN式的思维在当代人工智能中仍有其存在的价值,它将高级规划与快速的低级计算相结合。它们还超越了目前市面上一些最先进的大型语言模型,并重新发掘了循环架构被长期忽视的潜力。
相较于传统模型的核心优势
- 推理准确性更高:H模块的全局规划可实时修正L模块的局部错误,避免“错误传播”,解决了传统Transformer的核心痛点;
- 推理效率更优:无需生成中间推理痕迹,一次前向传播完成内部运算,且通过动态迭代调整降低无效计算,大幅提升推理速度;
- 训练成本更低:无需大规模预训练,依赖强化学习与定向评估即可实现推理能力优化,减少数据与硬件资源消耗;
- 任务适配性更强:通过“暂停环节”动态调整迭代次数,可适配从简单计算到复杂逻辑推理的各类任务,灵活性远超传统模型。
【HRM较之传统模型具有明显优势】
对AGI发展的里程碑意义
分层推理模型的问世,标志着人工智能推理研究从“规模驱动”(堆参数、堆数据)转向“结构驱动”(模拟人类认知机制),为AGI落地提供了关键技术路径:
其一,模型首次实现了“类人类思维”的结构化复现,证明了“受生物启发的循环架构”在推理任务中的优越性,打破了“Transformer架构垄断先进模型”的局面;
其二,模型重新发掘了循环网络的技术潜力,通过“双重循环+动态迭代”设计,解决了循环网络“灾难性遗忘”与“性能饱和”的长期难题,为后续推理模型的架构创新提供了范式参考;
其三,模型在逻辑推理、路径规划等任务中的卓越表现,以及“低数据依赖、高推理精度”的特性,使人工智能向“自主思考、自主决策”的AGI目标迈出了关键一步。
未来,随着分层推理模型的进一步优化(如模块协同效率提升、多任务适配能力增强),其“紧凑、快速、灵活”的技术特性将推动推理系统向“动态适配任务复杂度”的方向发展,有望定义人工智能增强研究的下一阶段,加速AGI从理论走向实践的进程。
原文标题:Recurrent Networks saving our Reasoning? Hierarchical Reasoning Model are here,作者:Shaik Hamzah
