谷歌27页论文揭秘:Gemini如何“斩获”2025 IMO金牌 | 三个看点

发布于 2025-7-28 00:52
浏览
0收藏

刚刚过去的几天,科技圈和数学界因2025年的国际数学奥林匹克竞赛(IMO)而异常热闹。首先,让我们为真正的冠军——中国队——献上最热烈的祝贺!六名队员以绝对优势再次为中国捧回团体总分第一的桂冠,基本上可以说咱中国人的智商碾压全世界,作为中国人,咱们倍感骄傲与自豪。

谷歌27页论文揭秘:Gemini如何“斩获”2025 IMO金牌 | 三个看点-AI.x社区

然而,在这场人类智慧的巅峰对决之外,另一场关于人工智能(AI)的“竞赛”也赚足了眼球。先是OpenAI略带尴尬地宣布其模型达到“金牌水平”,后又被指出其测试方式存在争议。紧接着,Google DeepMind高调入场,甩出一篇长达27页的详细技术论文,由Yichen Huang (黄溢辰)和Lin F. Yang (杨林)撰写,标题直截了当——《Gemini 2.5 Pro Capable of Winning Gold at IMO 2025》。

谷歌27页论文揭秘:Gemini如何“斩获”2025 IMO金牌 | 三个看点-AI.x社区

与众说纷纭的传闻不同,这篇论文清晰、透明地展示了谷歌是如何利用Gemini 2.5 Pro,在IMO 2025的考题上,取得了官方认证的金牌级别成绩。这不仅是一次能力的展示,更是一次对AI复杂推理能力极限探索的翔实记录。本文将深入解读这篇论文,揭开Gemini“夺金”背后的技术秘密。小插曲:谷歌的这篇论文也是俩中国人写的。以致于,美国流传着一个段子

谷歌27页论文揭秘:Gemini如何“斩获”2025 IMO金牌 | 三个看点-AI.x社区

言归正传!

“金牌”的真相:5/6的含金量

首先,我们必须明确“金牌水平”的定义。在IMO竞赛中,金牌并非只有一个得主,而是颁发给排名前约1/12的选手。根据历年情况,通常解出4道题就能稳定获得金牌。

谷歌的论文摘要中明确指出,他们使用Gemini 2.5 Pro,在 6道官方赛题中,成功解决了5道题。这是一个毫无疑问的、远超金牌线的惊人成绩。更关键的一点是,为了避免“数据污染”(即模型可能在训练数据中见过类似题目),研究团队特意使用了IMO 2025刚刚发布的全新问题。这意味着Gemini不是在“背题”,而是在进行真正的数学推理。

那么,Gemini是如何做到的呢?答案并非简单地把问题扔给模型然后等待结果,而是一个设计精巧、多步骤的“解题流水线”系统。

Gemini夺金的三大技术支柱

我们可以将Gemini的成功归结为三大环环相扣的技术支柱,它们共同构成了这套强大的推理系统。

看点一:迭代式自我修正流水线,AI版的“同行评审”

面对IMO级别的难题,即便是最顶尖的大模型,也难以“一步到位”给出完美答案。谷歌的核心战术,是构建了一个模仿人类科研过程的、严谨的迭代式流水线。

  1. 初始解法生成(探索与尝试):首先,模型会像一个思路开阔的“探索者”,针对一个问题,生成多个可能的初始解法。这一步类似于人类的“头脑风暴”,尽可能多地探索解题路径。论文坦诚地指出,在这一阶段直接生成的解法质量“普遍很低”,这说明了后续步骤的必要性。
  2. 引入“验证者”角色(严苛的审稿人):接下来,系统会调用一个扮演“验证者”角色的Gemini模型。这个“验证者”被赋予了极其严格的指令,它像一位苛刻的IMO阅卷人,任务不是解题,而是逐行审查“探索者”给出的证明,并生成一份详细的“Bug报告”。报告会将问题分为两类:
  • 致命错误(Critical Error):逻辑上完全错误,或计算上出现硬伤。一旦发现,后续依赖于此的步骤将不再被检查。
  • 证明缺陷(Justification Gap):结论可能正确,但论证过程不严谨、存在跳步或缺乏充分依据。
  1. 循环修正与收敛:这份“Bug报告”会被发回给最初的“解题模型”(现在是“修正者”)。它会根据报告中的意见,逐一修正错误、填补逻辑漏洞。修改后的新解法,将再次提交给“验证者”进行评审。

这个“生成-验证-修正”的循环会不断进行。根据论文中的流程图,如果一个解法连续5次通过了验证者的审查,系统就会“接受”这个答案;而如果一个解法在10轮迭代中始终存在重大问题,就会被“拒绝”。这个过程,本质上是 AI版的“同行评审”,通过不断的自我批判和修正,将一个粗糙的想法逐步打磨成无懈可击的完美证明。

看点二:巧妙的“思考预算”策略,突破Token限制

这个精巧的流水线设计,并不仅仅是为了模拟人类。它背后有一个非常深刻的技术考量——“思考预算”(thinking budget)

论文指出,Gemini 2.5 Pro的最大“思考预算”是32768个token。对于IMO这种极其复杂的任务,生成一个完整且严谨的证明,所需的token量很容易就超出这个上限。这意味着,如果试图一次性解决问题,模型很可能“思考到一半”就无以为继了。

而谷歌的流水线设计巧妙地解决了这个问题。将解题过程分解为多个步骤,实际上是为模型分阶段注入了新的“思考预算”。例如,第一步“初始解法生成”用掉一份预算后,第二步“自我改进”会再次获得一份完整的32768 token预算,让模型有充足的“精力”去审视和深化自己的工作。

这种化整为零的策略,将一个模型无法一次性完成的超复杂任务,分解成了多个能力范围内可以处理的子任务,是本次成功的关键工程保障。

看点三:不可或缺的人工智慧引导,画龙点睛

这篇论文最值得称道的地方在于其坦诚。研究者明确指出,在解决某些问题时,他们提供了非常微妙但关键的“人工提示”。

  • 对于问题1(组合数学),他们在将题目输入模型后,额外补充了一句话:“让我们尝试用归纳法来解决这个问题。”
  • 对于问题2(平面几何),他们同样补充了一句:“让我们尝试用解析几何来解决这个问题。”

这算是作弊吗?论文作者给出了他们的解释:归纳法和解析几何是解决这类问题的非常通用和标准的方法。如果未来有一个更强大的“多智能体”AI系统,它必然会分配不同的智能体去尝试这些标准路径。因此,这句提示的作用,更多是 帮助模型在正确的方向上起步,从而减少漫无目的的计算资源消耗,而非直接给出解题思路。

这恰恰说明了,在当前阶段,AI的强大能力仍然需要人类的智慧来引导和驾驭。设计精巧的系统流程、提供正确的方向性提示,这些“人的智慧”与“AI的算力”相结合,才共同促成了这次“夺金”壮举。

结语

Google的这篇论文也为我们揭示了AI在人类最顶级的智力竞赛中已经达到的惊人高度。

Gemini的成功,并非源于某个单一模型的“神力”,而是源于一套精巧、严谨、且高度模仿人类科研范式的系统工程。它通过“生成-验证-迭代”的闭环,将大模型的计算能力和逻辑潜力发挥到了极致。同时,它也坦诚地展现了现阶段AI依然需要人类智慧进行战略引导的现实。

参考资料: Huang, Y., & Yang, L. F. (2025). Gemini 2.5 Pro Capable of Winning Gold at IMO 2025. arXiv:2507.15855v2 [cs.AI].

本文转载自​后向传播​,作者: 张发恩

收藏
回复
举报
回复
相关推荐