
AI闯入物理奥赛赛场?PhysicsMiniions协同进化多模态多智能体系统在物理奥赛中的突破
在全球科学教育的舞台上,国际物理奥林匹克(IPhO)与亚洲物理奥林匹克(APhO)无疑是最具含金量的赛事之一。
它们不仅是中学生物理学习的最高殿堂,更是各国顶尖年轻学者展示思维深度与创造力的竞技场。能够在这些赛事中摘得金牌,往往意味着参赛者已具备接近大学科研水平的物理素养与跨学科能力。
人工智能在这一领域的表现却长期受限,传统大语言模型虽然在自然语言处理和部分数学推理上展现出惊人的能力,但一旦面对奥赛题目中常见的跨模态挑战——复杂的公式推导、图像与实验图表的解析、实验设计与物理直觉的结合——便显得力不从心。它们往往只能给出片段化的答案,缺乏整体逻辑链条,更难以达到人类金牌选手的水准。
近日,国内顶级科研机构、学府联合发布的PhysicsMinions 系统横空出世。它并非依赖单一大模型的“蛮力”,而是通过一个协同进化的多模态多智能体框架,将不同“专长”的智能体组织成一个虚拟科研团队,像真实的竞赛小组一样分工合作、相互批判、迭代优化。
物理学是理解和塑造现实世界的核心,解决物理问题的能力是现实世界物理智能的关键指标。令人瞩目的是,这一系统在最新的物理奥赛真题测试中,首次达到了与人类金牌选手相当的水平,成为 AI 在科学教育与推理领域的一次里程碑式突破。
根据涵盖7场最新物理奥林匹克竞赛的HiPhO基准进行评估,PHYSICSMINIONS取得了三大突破:
- 强大的泛化能力:它持续改进不同规模的开源和闭源模型,比单一模型基线带来了明显的好处;
- (历史性突破:它将开源模型从7届奥运会的1-2枚金牌提高到6枚金牌,在最近一届国际物理奥林匹克竞赛(IPhO)的平均得分指标下获得了有史以来第一枚开源金牌;
- 扩展到人类专家:它进一步推进了开源Pass@32在最新的IPhO比赛中,该选手的得分为26.8/30分,在406名参赛者中排名第四,远远超过了排名第22位的最佳单人模特得分22.7分。
总体来看,PHYSICSMINIONS为奥林匹克水平的问题解决提供了一个通用的框架,具有跨学科扩展的潜力。
图1:PHYSICSMINIONS的图示,这是一个由三个工作室组成的协同进化多模式多智能体系统:用于视觉提取的Visual Studio、用于解决方案优化的Logic Studio和用于双重验证的Review Studio。就像一个“小黄人”一样,一个代理是有限的,但在最新的IPhO中,它们共同形成了一个系统,将Intern-S1从15.9(银)提高到20.8(金)。
支撑这一成果的,是一个跨越多所顶尖高校与研究机构的科研团队。技术团队以上海人工智能实验室为核心,联合了清华大学、香港中文大学(CUHK)、香港中文大学(深圳)、电子科技大学(UESTC)以及大连理工大学(DUT)的研究人员。
团队成员既有在计算机视觉与多模态智能领域享誉国际的学者,也有在 AI for Science、自然语言处理和跨模态推理方面深耕的青年学者与博士生。这样的跨学科、跨地域组合,使得 PhysicsMinions 不仅是一项技术实验,更是一场科研协作模式的示范。
1.研究目标与挑战
PhysicsMinions 的研究目标十分明确——打造一个能够在真实物理奥赛题目中,与顶尖人类选手正面竞争的 AI 系统。换句话说,它不仅要“会做题”,更要在逻辑完整性、跨模态推理和实验设计等方面展现出接近人类的综合能力。
要实现这一目标,团队必须跨越几道难关。首先是多模态信息的整合。奥赛题目往往包含文字描述、复杂公式、实验装置图、数据表格等多种信息形式,单一模态的模型难以全面理解。其次是高度复杂的跨学科推理链条。物理奥赛不仅考查物理知识,还涉及数学建模、实验设计、甚至科学直觉,要求 AI 能够像人类一样在不同知识层面之间灵活切换。
最后,答案不仅要正确,还必须具备解释性与逻辑完整性。在奥赛评分体系中,解题过程的合理性与推理链条的完整性往往比最终数值答案更重要,这对 AI 的透明性和可解释性提出了更高要求。
正因如此,PhysicsMinions 的突破不仅是一次技术上的胜利,更是对 AI 在科学推理与教育应用中边界的一次拓展。它让我们看到了一个未来:AI 不再只是“答题机器”,而是能够与人类并肩作战的“科研合作者”。
2.方法论框架:PhysicsMinions 系统设计
如果说物理奥赛是一场智慧的马拉松,那么 PhysicsMinions 就像是一支由不同领域专家组成的科研小组。它并不是依赖单一“大脑”的孤军奋战,而是通过多智能体的分工协作与协同进化的机制,逐步逼近最优解。
图2:PHYSICSMINIONS概述,这是一个协同进化的多模态多智能体系统。给定一个多模式问题,Visual Studio会提取结构化的视觉信息。Logic Studio生成初始解决方案并对其进行改进。然后Review Studio进行双阶段验证;失败会触发错误报告,并返回Logic Studio进行进一步修订。这个循环一直持续到解决方案通过连续的检查,形成共同进化过程。
多智能体协作机制
在 PhysicsMinions 的架构中,每个智能体都被赋予了明确的角色定位。有人专注于文本推理,负责理解题干、拆解逻辑链条;有人擅长图像解析,能够从复杂的实验装置图或物理示意图中提取关键信息;还有智能体专门处理数学计算,确保公式推导与数值结果的精确性;最后,实验设计智能体则模拟人类物理学家的直觉,提出实验方案并预测可能的结果。
这种分工模式极像一个真实的科研小组:理论物理学家、实验物理学家、数学建模专家与数据分析师各司其职,在讨论与碰撞中逐步完善答案。与传统单模型相比,这种“团队式”智能体协作更贴近人类解决复杂问题的方式。
协同进化(Coevolutionary Optimization)
PhysicsMinions 的核心创新在于“协同进化”。解题并不是一次性完成的,而是一个动态迭代的过程。系统会先生成候选解答,然后由不同智能体进行批判与修正,提出改进意见,再进入下一轮优化。这个过程不断循环,直到答案在逻辑、数值和解释性上趋于收敛。
这种机制与传统大模型的“单次推理”形成鲜明对比。单一模型往往给出一个静态答案,缺乏自我修正与多角度审视的能力。而协同进化则像是一场学术讨论会,答案在争论与修正中逐渐成熟,最终呈现出更高的准确性与完整性。
多模态能力整合
物理奥赛的题目往往跨越文字、公式、图像与实验四个维度。PhysicsMinions 在设计上强调多模态的深度融合。 在文本层面,它能够准确理解题干的语义,并将其转化为逻辑推理链条;在数学层面,它具备公式推导与数值计算的能力,确保结果的严谨性;在视觉层面,它能识别图像与图表,从中提取物理量与实验条件;在实验层面,它能够提出合理的实验设计,并预测可能的结果与误差范围。
这种跨模态的整合,使得 PhysicsMinions 不仅能“看懂题目”,还能像人类选手一样,将不同信息源拼接成完整的物理世界图景。
PhysicsMinions 的方法论框架是一种“科研团队式 AI 解题模式”。它通过多智能体的分工协作、协同进化的迭代优化,以及多模态的深度整合,突破了传统大模型在科学推理上的瓶颈。
3.实验与结果
在展示 PhysicsMinions 的实力之前,研究团队首先构建了一个极具挑战性的测试环境。他们并没有选择人工合成的题库,而是直接将系统放入真实的“战场”——国际物理奥林匹克(IPhO)、亚洲物理奥林匹克(APhO)以及部分国家级竞赛的真题。这些题目以难度大、跨模态信息复杂、推理链条长而著称,是检验任何解题系统的“终极考卷”。
评测的标准也极为严格。研究人员并非只看系统能否给出正确答案,而是将其得分与人类选手的金牌线进行对比。换句话说,PhysicsMinions 要想被视为成功,不仅要答对题,还要在整体表现上达到国际奥赛金牌选手的水准。这一评测方式凸显了研究的雄心:目标不是“能解题”,而是“能夺金”。
图3:Intern-S1在最新IPhO上使用PHYSICSMINIONS的性能改进,按每个问题和模态得分显示。HiPhO基准定义了四种模态类型:TO=纯文本、TI=文本+插图、TV=文本+可变图形和TD=文本+数据图形。
结果令人瞩目。在 IPhO 的模拟测试中,PhysicsMinions 的平均得分已经稳稳跨过金牌线,成为首个在奥赛级别任务中达到这一高度的 AI 系统。尤其值得注意的是,在传统上最考验人类直觉与创造力的实验设计题上,PhysicsMinions的表现显著优于单一大模型的基线。
通过多智能体的协作与迭代优化,它能够提出合理的实验方案,并预测潜在结果,展现出接近人类物理学家的思维方式。
更为突出的是系统的跨模态推理能力。面对同时包含文字描述、复杂公式和实验图表的题目,PhysicsMinions 能够像人类一样,将不同模态的信息拼接成完整的逻辑链条。这种能力正是传统大模型的短板,而在 PhysicsMinions 的“科研小组式”架构下得到了突破。
图4:Intern-S1和Qwen2.5VL-32B-Instruct在最新IPhO上的缩放性能。
附录中的案例展示更是直观地揭示了这一过程。研究团队选取了一道力学题作为示例:题目包含实验装置图、文字描述和公式推导。PhysicsMinions 的解题过程被完整记录下来——首先由文本推理智能体解析题干,提取关键物理量;随后图像解析智能体识别实验装置图中的几何关系;接着数学计算智能体完成公式推导与数值计算;最后实验设计智能体对结果进行验证与补充说明。
整个过程如同一场小型的学术讨论会,不同角色的智能体各司其职,互相批判与修正,最终收敛到一个逻辑完整、数值准确的答案。
图5:使用Intern-S1对最新IPhO进行消融研究和超参数分析。
这一案例不仅展示了 PhysicsMinions 的“团队式”解题风格,也让人们看到了 AI 在科学推理上的新范式。它不再是单一模型的“黑箱输出”,而是一个透明、可解释、可追踪的推理过程。这种特质不仅让它在奥赛中“夺金”,也为未来 AI 在科研与教育中的应用奠定了坚实基础。
4.研究贡献与意义
PhysicsMinions 的出现,不仅仅是一项技术实验的成功,更是人工智能在科学推理与教育领域的一次标志性突破。
在学术层面,它首次展示了 AI 系统能够在国际物理奥赛级别的科学推理任务中达到“金牌表现”。这意味着 AI 已经不再局限于解答标准化的选择题或简单的数学推理,而是能够在复杂的跨模态、多步骤推理任务中与顶尖人类选手比肩。这一成果为 AI for Science 的研究打开了新的边界,也为未来跨学科智能系统的探索提供了坚实的案例。
图6:使用Intern-S1对IPhO Q3-A6进行双阶段验证的案例研究。单一模型仅获得0.2分,而PHYSICSMINIONS通过双阶段验证和自我反思获得了1.1分的满分,显示出实质性的改进。
图7:PHYSICSMINIONS的Visual Studio在精确数据提取方面的局限性。示例:IPhO Q1-C4需要识别曲线中所有三个峰的x坐标。
在方法论上,PhysicsMinions 提出了协同进化的多智能体框架。不同于传统依赖单一大模型的“黑箱式”推理,它通过多个智能体的分工协作与迭代优化,形成了类似科研小组的解题模式。这种方法不仅提升了准确性和鲁棒性,也增强了过程的可解释性,为 AI 系统的透明化与可信赖性提供了新的思路。
在教育价值方面,PhysicsMinions 的潜力同样巨大。它可以作为智能助教,帮助学生理解复杂的物理题目,提供逐步推理链条,甚至模拟“竞赛团队”的讨论过程。对于奥赛训练而言,这不仅能提升学习效率,还能让学生更直观地理解科学推理的逻辑结构。
在科研潜力上,这一框架并不局限于物理学。其多模态、多智能体、协同进化的机制完全可以扩展到化学、生物学、工程学等跨学科科学问题。它有望成为一种通用的科学推理平台,推动 AI 在科研中的应用从“工具”走向“合作者”。
5.批判性思考与未来展望
尽管 PhysicsMinions 的成果令人振奋,但它也引发了一系列值得深思的问题。
首先是公平性与伦理问题。AI 是否应该直接参与竞赛?如果 AI 能够在奥赛中夺金,那么人类选手的努力是否会被削弱?如何界定 AI 在教育与竞赛中的角色,是“辅助”还是“替代”?这些问题不仅关乎技术应用,更涉及教育公平与社会价值观。
其次是教育应用的边界。PhysicsMinions 能否真正成为“虚拟竞赛团队”,帮助学生提升学习体验?它的解释性与透明度是否足以让学生从中学习,而不是仅仅依赖答案?如何避免学生过度依赖 AI,而忽视了自身的思维训练?这些都需要教育者与技术开发者共同探索。
在科研应用方面,PhysicsMinions 的框架能否迁移到化学、生物等学科?跨模态推理在这些领域同样重要,但问题的复杂性和数据的多样性可能更高。如何保证系统在不同学科中的适应性与可靠性,将是未来的重要挑战。
展望未来,PhysicsMinions 的发展方向可以从几个维度展开。其一是增强可解释性与透明度,让 AI 的推理过程更加清晰可追踪,从而赢得教育与科研领域的信任。其二是探索与人类专家的协作模式,让 AI 成为科研团队中的“合作者”,而不是“替代者”。其三是在政策与监管框架下实现合规应用,确保 AI 在教育与科研中的使用符合伦理与社会规范。
总的来说,PhysicsMinions 不仅是一项技术突破,更是一面镜子,映照出 AI 在科学教育与科研中的潜力与挑战。它让我们看到了一个未来——AI 不再只是解题机器,而是能够与人类并肩作战的科研伙伴。
参考资料:https://arxiv.org/pdf/2509.24855
本文转载自波动智能,作者:FlerkenS
