当“7M小模型”逆袭巨头：三星TRM如何击败DeepSeek、Gemini与o3-mini？原创

发布于 2025-10-17 08:24

浏览

0收藏

一、当小模型掀翻大模型，AI推理的天平被重新校准

在AI的竞技场上，我们已经习惯了“大力出奇迹”——模型越大、参数越多、算力越猛，表现就越强。然而，2025年10月，来自三星SAIT（蒙特利尔研究院）的一篇论文，彻底打破了这一逻辑。

他们发布了一个名叫 Tiny Recursive Model（TRM） 的小模型，参数量仅 7M——几乎是DeepSeek-R1（671B）的百万分之一。但就是这样一个“袖珍模型”，在ARC-AGI-1 和 ARC-AGI-2 推理测试中，硬是干翻了多个巨头级大模型，包括 Gemini 2.5 Pro、o3-mini-high、以及DeepSeek-R1。

ARC-AGI-1：44.6%准确率
ARC-AGI-2（两次尝试）：7.8%准确率

相比之下，DeepSeek-R1 仅 **15.8% / 1.3%**，Gemini 2.5 Pro 37.0% / 4.9%。这意味着——TRM不是偶然跑赢，而是以十几倍小的规模实现了结构性胜利。

当“7M小模型”逆袭巨头：三星TRM如何击败DeepSeek、Gemini与o3-mini？-AI.x社区

三星团队的目标不是“更大的模型”，而是一个更聪明的 递归推理架构：

“让模型像人一样思考——草拟一个方案，再自我修订，而不是一条条地顺序输出。”

二、TRM的秘密：不是更深，而是“想+改”的循环

传统的大语言模型（LLM）在思考问题时采用自回归方式（autoregressive）——逐字生成输出。但TRM走了另一条路：先做出一个完整的草稿，再反复修改，直到结果更优。

当“7M小模型”逆袭巨头：三星TRM如何击败DeepSeek、Gemini与o3-mini？-AI.x社区

这背后隐藏的是三个核心创新：

1. Think → Act 的循环：像人一样“思考—行动—再思考”

TRM取消了旧有模型HRM的两层结构，只保留一个极小的递归核心网络，由两层组成。它在内部交替执行两个过程：

Think（思考）：更新潜在记事本（latent scratchpad）z ← f(x, y, z)
Act（行动）：根据思考结果修正输出y ← g(y, z)

模型在训练时最多展开16次循环（unroll），每次循环都有“深度监督”，确保每一步思考都受到反馈。而在推理时，它会完整展开——像一个人拿着草稿纸反复推演。

这种结构，让TRM拥有一种“持续反思”的能力——每一轮都能纠正上一次的盲点。

2. 真·递归训练：不再偷懒的反向传播

传统方法（如HRM）为了省算力，采用的是固定点近似（Fixed-Point Approximation），即不对所有循环进行完整反向传播。而TRM大胆地选择了“全程回传”——每一步的误差都被追踪到底。

这虽然增加了训练复杂度，但显著提升了模型的泛化能力。换句话说，TRM不会只记得“怎么做题”，而是真正理解“为什么这么做”。

3. 用递归代替堆叠：深度来自时间，而不是层数

TRM的网络层数只有2层，但它的有效深度来自递归展开。假设每次展开6步、递归3轮，它的等效深度大约是 T × (n+1) × layers。也就是说，它用时间的深度替代了结构的深度。

结果是——更浅、更快，却思考得更“深”。

三、超越尺寸的智慧：实测结果全线领先

在ARC、Sudoku、Maze等推理任务中，TRM全面碾压同类架构。

任务	模型	参数量	准确率
ARC-AGI-1	TRM-Attn	7M	44.6%
ARC-AGI-2	TRM-Attn	7M	7.8%
ARC-AGI-1	HRM	27M	40.3%
ARC-AGI-2	HRM	27M	5.0%
Sudoku-Extreme	TRM-Mixer	7M	87.4%
Maze-Hard	TRM-Attn	7M	85.3%