
你解数学题时,会把每一步都喊出来吗?AI大模型应该学会 "默默思考" 的秘诀
昨天给孩子讲数学题,发现一个有趣的现象:我自己算的时候,脑子里飞快过了好几个思路,最后才得出答案;但给孩子讲时,必须把"先算括号里的""再乘除后加减"这些步骤一个个说出来。这让我想起最近读到的一篇论文,突然意识到:AI的"思考"方式,居然也在经历类似的转变——从必须"大声说出"每一步,到学会在心里"默默盘算"。
你可能用过ChatGPT解复杂问题,它会一条条列步骤,比如"第一步算总量,第二步求比例",这种"说出来"的思考方式叫"显式推理"。但今天要聊的"潜在推理",就像AI在心里打草稿,不用把所有步骤都转换成文字,却能更快更准地得出答案。这背后的突破,可能会彻底改变AI的"认知能力"。
为什么AI"说话"思考效率低?
先聊聊传统的显式推理。就像我们发微信,每次只能发一段文字,AI的显式推理也是用"tokens"(可以理解为语言片段)来传递中间思考。比如解一道数学题,AI要生成"因为A所以B,又因为B所以C"这样的句子,每一步都是一个或多个tokens。
但这里有个大问题:语言的"带宽"太低了。论文里做了个惊人对比:一个显式的token大概只能携带15比特的信息,就像一张只能写几个字的明信片;而AI模型里的"隐藏状态"(可以理解为它的"内心活动"),一次能传递40960比特的信息,相当于一个装满细节的U盘。两者差了差不多2700倍!
想象一下:你要给朋友描述一幅复杂的画,显式推理就像只能用短信一句句说,而潜在推理相当于直接发高清视频——哪个效率高,一目了然。
更麻烦的是,语言会"框住"思考。有些复杂的逻辑关系,可能没法用简单的文字说清楚,就像数学家有时候靠公式和图形思考,而不是纯语言。AI被限制在语言里,自然也会错过一些更优的思考路径。
潜在推理:AI在"心里"建了个草稿本
潜在推理的核心 idea 特别简单:把思考过程从"语言文字"挪到AI的"内部状态"里。不用生成中间文字,直接在模型的隐藏状态里完成多步推理。
打个比方:显式推理像小学生做算术,必须在作业本上写下每一步"3+5=8,8×2=16";潜在推理则像熟练的会计,看一眼数字就能在心里快速算出结果,不用动笔。
论文里把这种"内心活动"分成了两种主要形式,我用两个生活场景就能讲明白:
垂直递归:像揉面团一样反复打磨
这种方法就像揉面团——同样的面粉和水,反复揉、反复压,面筋会越来越劲道,口感越来越好。AI的垂直递归也是这样:把同一组神经网络层"反复使用",让信息在里面一次次循环、打磨。
比如Universal Transformer模型,它不像传统模型那样一层一层"走一遍就完",而是会根据问题难度,决定要不要多"揉"几次。简单问题可能过两层就够了,复杂问题就多循环几十次。这就像做面包,简单的小面包揉几分钟就行,复杂的欧式面包可能要揉半小时。
我觉得最巧妙的是"Pre/Loop/Coda"结构(前奏-循环-尾声):先把问题"看懂"(前奏),然后反复琢磨(循环),最后整理出答案(尾声)。就像我们写报告,先理解需求,中间反复修改核心内容,最后美化格式——分工明确,效率更高。
水平递归:像记账本一样积累信息
如果说垂直递归是"往深了想",水平递归就是"往长了记"。它像一本智能记账本,不是把所有流水都记下来,而是提炼关键信息,不断更新,却始终保持简洁。
传统的Transformer模型记东西,有点像堆文件——新信息来了就往文件夹里塞,文件越来越多,找起来越来越慢。水平递归则像个精明的秘书,会把旧信息压缩成精华,再和新信息结合,始终保持一个"轻薄"的笔记本。
比如RetNet、Mamba这些模型,它们的隐藏状态会像滚雪球一样,把重要信息留下,不重要的慢慢淡化。就像我们记会议纪要,不会逐字记录,而是提炼要点,新的要点来了就更新纪要,始终保持清晰简洁。
神经网络的"车间分工":每层都有专门任务
潜在推理能成事儿,还得靠神经网络的"内部分工"。论文里提出的"层专业化"理论特别有意思:就像工厂的不同车间,浅层、中层、深层神经网络,干的活完全不一样。
浅层:原材料处理车间
浅层网络就像工厂的原料检验员,负责处理最基础的信息。比如读一句话时,浅层会先识别"谁、什么时间、做了什么"这些基本要素,就像我们看文章先抓住主谓宾。
论文里发现,浅层还特别擅长记"事实性知识"。比如"北京是中国的首都"这种常识,多半藏在浅层——就像我们大脑里的"即时记忆",快速调用,不用深想。
中层:核心加工车间
最精彩的推理发生在中层。这里像工厂的装配线,把浅层送来的原材料组装成复杂的逻辑关系。比如解"小明有3个苹果,妈妈又买了5个,分给2个小朋友,每人几个"这种题,中层会处理"3+5=8,8÷2=4"的逻辑链条。
更厉害的是,中层会形成专门的"推理电路"。就像工厂里为特定产品设计的专用生产线,中层的某些神经元会专门处理"因果关系",某些专门处理"数量比较"。我看到论文里说,只要干扰这些神经元的活动,AI的推理能力就会明显下降——足见它们的核心作用。
深层:质检与包装车间
深层网络主要负责"输出优化"。就像工厂的质检和包装环节,把中层加工好的结果再检查一遍,然后整理成符合要求的形式。
不过论文也提到一个有趣的现象:深层有时候会"偷懒"。可能是因为信息传递到这里时已经损耗了一些,也可能是优化过度导致"形式大于内容"。就像包装太花哨,反而掩盖了产品本身的质量——这也是未来需要改进的地方。
无限深度推理:AI学会"反复修改"
潜在推理的终极目标之一,是让AI能"想多久就想多久",而不是被固定的层数或步骤限制。这就像我们解难题时,会反复琢磨、推翻重来,直到满意为止——论文里把这叫"无限深度推理"。
目前最有希望的是"文本扩散模型",它的工作方式特别像我们写文章:
1. 先随便写个初稿(可能全是错误);
2. 通读一遍,修改明显的错误;
3. 再读,调整逻辑不顺的地方;
4. 反复打磨,直到满意。
传统的AI生成文本,像写日记一样"从左到右",写完一句就不能改了;而扩散模型可以随时回头修改前面的内容,就像用Word编辑文档,哪里不对改哪里。论文里提到,这种方法特别适合数学推理和复杂规划——毕竟谁解题还不涂改两笔呢?
我觉得最妙的是"置信度控制":模型会先集中精力修改那些"自己也没把握"的部分,就像我们考试时先检查不确定的题目,效率特别高。
未来的AI,会"想"得更像人吗?
读这篇论文时,我总忍不住把AI的潜在推理和人类的思考方式对比:我们平时思考,大多时候也是"默默进行"的,只有需要解释或记录时,才会转换成语言。从这个角度看,潜在推理可能让AI的"认知过程"更接近人类。
但挑战也不少:比如怎么"看懂"AI的"内心活动"(可解释性),怎么确保它在默默思考时不"走歪路"(可靠性)。论文里提到,目前还没有统一的评价标准,不同模型的训练条件也不一样,就像不同学校的学生用不同教材,很难直接比较——这也是未来需要解决的问题。
不过可以肯定的是,潜在推理让AI摆脱了语言的"镣铐"。就像人类发明文字是为了交流,但真正的思考往往超越文字本身,AI也正在迈出这一步。
最后想问问你:如果AI能在心里默默算对一道复杂的题,但说不出具体步骤,你会相信它的答案吗?欢迎在评论区聊聊你的看法。
参考资料
• 标题:A Survey on Latent Reasoning,
• 作者:Rui-Jie Zhu, Tianhao Peng, Tianhao Cheng, Xingwei Qu, Jinfa Huang, Dawei Zhu, Hao Wang, Kaiwen Xue, Xuanliang Zhang, Yong Shan, Tianle Cai, Taylor Kergan, Assel Kembay, Andrew Smith, Chenghua Lin, Binh Nguyen, Yuqi Pan, Yuhong Chou, Zefan Cai, Zhenhe Wu, Yongchi Zhao, Tianyu Liu, Jian Yang, Wangchunshu Zhou, Chujie Zheng, Chongxuan Li, Yuyin Zhou, Zhoujun Li, Zhaoxiang Zhang, Jiaheng Liu, Ge Zhang, Wenhao Huang, Jason Eshraghian
• 单位:UCSC, FDU, NJU, PKU, RUC, UoM, UW-Madison, PolyU, M-A-P
• 链接:https://arxiv.org/pdf/2507.06203
本文转载自旺知识,作者:旺知识
