当“7M小模型”逆袭巨头:三星TRM如何击败DeepSeek、Gemini与o3-mini? 原创

发布于 2025-10-17 08:24
浏览
0收藏

一、当小模型掀翻大模型,AI推理的天平被重新校准

在AI的竞技场上,我们已经习惯了“大力出奇迹”——模型越大、参数越多、算力越猛,表现就越强。 然而,2025年10月,来自三星SAIT(蒙特利尔研究院)的一篇论文,彻底打破了这一逻辑。

他们发布了一个名叫 Tiny Recursive Model(TRM) 的小模型,参数量仅 7M——几乎是DeepSeek-R1(671B)的百万分之一。 但就是这样一个“袖珍模型”,在ARC-AGI-1 和 ARC-AGI-2 推理测试中,硬是干翻了多个巨头级大模型,包括 Gemini 2.5 Pro、o3-mini-high、以及DeepSeek-R1

  • ARC-AGI-1:44.6%准确率
  • ARC-AGI-2(两次尝试):7.8%准确率

相比之下,DeepSeek-R1 仅 **15.8% / 1.3%**,Gemini 2.5 Pro 37.0% / 4.9%。 这意味着——TRM不是偶然跑赢,而是以十几倍小的规模实现了结构性胜利。

当“7M小模型”逆袭巨头:三星TRM如何击败DeepSeek、Gemini与o3-mini?-AI.x社区

三星团队的目标不是“更大的模型”,而是一个更聪明的 递归推理架构

“让模型像人一样思考——草拟一个方案,再自我修订,而不是一条条地顺序输出。”

二、TRM的秘密:不是更深,而是“想+改”的循环

传统的大语言模型(LLM)在思考问题时采用自回归方式(autoregressive)——逐字生成输出。 但TRM走了另一条路:先做出一个完整的草稿,再反复修改,直到结果更优。

当“7M小模型”逆袭巨头:三星TRM如何击败DeepSeek、Gemini与o3-mini?-AI.x社区

这背后隐藏的是三个核心创新:

1. Think → Act 的循环:像人一样“思考—行动—再思考”

TRM取消了旧有模型HRM的两层结构,只保留一个极小的递归核心网络,由两层组成。 它在内部交替执行两个过程:

  • Think(思考):更新潜在记事本(latent scratchpad)​​z ← f(x, y, z)​
  • Act(行动):根据思考结果修正输出​​y ← g(y, z)​

模型在训练时最多展开16次循环(unroll),每次循环都有“深度监督”,确保每一步思考都受到反馈。 而在推理时,它会完整展开——像一个人拿着草稿纸反复推演。

这种结构,让TRM拥有一种“持续反思”的能力——每一轮都能纠正上一次的盲点。

2. 真·递归训练:不再偷懒的反向传播

传统方法(如HRM)为了省算力,采用的是固定点近似(Fixed-Point Approximation),即不对所有循环进行完整反向传播。 而TRM大胆地选择了“全程回传”——每一步的误差都被追踪到底。

这虽然增加了训练复杂度,但显著提升了模型的泛化能力。 换句话说,TRM不会只记得“怎么做题”,而是真正理解“为什么这么做”。

3. 用递归代替堆叠:深度来自时间,而不是层数

TRM的网络层数只有2层,但它的有效深度来自递归展开。 假设每次展开6步、递归3轮,它的等效深度大约是 ​​T × (n+1) × layers​​。 也就是说,它用时间的深度替代了结构的深度

结果是——更浅、更快,却思考得更“深”。

三、超越尺寸的智慧:实测结果全线领先

在ARC、Sudoku、Maze等推理任务中,TRM全面碾压同类架构。

任务

模型

参数量

准确率

ARC-AGI-1

TRM-Attn

7M

44.6%

ARC-AGI-2

TRM-Attn

7M

7.8%

ARC-AGI-1

HRM

27M

40.3%

ARC-AGI-2

HRM

27M

5.0%

Sudoku-Extreme

TRM-Mixer

7M

87.4%

Maze-Hard

TRM-Attn

7M

85.3%

这些结果尤其惊人,因为TRM不是靠提示工程或few-shot提示,而是完全从零训练(train from scratch)。 它在小规模、重增强的数据集上,展现了前所未有的泛化能力。

甚至在经典的Sudoku-Extreme(9×9)任务上,TRM用一个无注意力的MLP-Mixer混合结构取得87.4%的高分,比前代HRM(55%)高出整整30个百分点。

当“7M小模型”逆袭巨头:三星TRM如何击败DeepSeek、Gemini与o3-mini?-AI.x社区

当“7M小模型”逆袭巨头:三星TRM如何击败DeepSeek、Gemini与o3-mini?-AI.x社区

四、为什么7M模型能赢?

听起来像魔法,但其实逻辑非常清晰:TRM不是在拼参数,而是在拼思维方式。

1. 从“逐字输出”到“全局草拟”

自回归模型一边生成一边预测,容易陷入暴露偏差(Exposure Bias)——后面的词必须建立在前面未必完美的输出上。 TRM不同,它先生成一个完整解答,再进行“自我审校”,对照输入不断修正。 这种结构化的反思机制,使其在逻辑类、几何类任务上更稳定。

2. 算力用在“思考时间”,不是“模型体积”

传统扩展模型靠堆参数堆算力,而TRM把相同计算量分配在递归循环上。 换句话说,它让“时间的深度”取代了“空间的宽度”。 研究团队发现,这样的分配方式在复杂逻辑推理任务中更高效——就像一个小而勤奋的脑袋,能比庞大但笨重的机器想得更透。

3. 针对网格推理的归纳偏置

在Sudoku、Maze这类固定网格问题中,TRM去掉自注意力层,用简单的MLP-Mixer做特征混合。 看似退步,实则更契合任务本身的结构规律。 因为对于固定空间的小格子,过度的注意力机制反而带来噪声。

五、从TRM看“后大模型时代”的三个信号

TRM的出现,不只是一个“小模型逆袭”的故事,更像是AI研究的方向拐点。

1. 参数规模不再是唯一真理

从DeepSeek到Gemini,业界已经进入“参数饱和期”。 TRM用7M参数证明:推理能力并不完全依赖规模,而在于计算的组织方式。 未来,“递归推理”可能成为推理型AI的新主流。

2. 小模型的复兴:端侧与自治智能的希望

在端侧、机器人、嵌入式智能系统中,资源极度有限。 TRM的成功意味着,未来不必依赖上百GB的模型权重,也能获得可靠的逻辑推理能力。 这对自动驾驶、工业机器人、边缘计算等场景,都是重大利好。

3. 递归思维的回归:让模型学会“思考过程”

传统LLM更像“说话者”——一口气讲完结论; 而TRM像“思考者”——不断推翻自我、修正答案。 这种“过程性智能”,或许才是通往通用智能(AGI)的真正路径。

六、结语:从“堆大”到“想深”,AI研究的另一种可能

三星SAIT的Tiny Recursive Model只是一个起点。 它并没有解决ARC-AGI(目标85%)的终极挑战,但它让我们重新看清:

“智慧”并非堆叠的结果,而是迭代与反思的产物。

当一个7M的小模型,能够在思考深度上超过百亿级大模型,也许我们该问自己—— 下一代AI,究竟需要更多算力,还是更多“自我修正”的能力?

未来,也许不是“更大”,而是“更聪明”。


本文转载自​Halo咯咯​    作者:基咯咯

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-10-17 08:24:43修改
收藏
回复
举报
回复
相关推荐