在开源模型上复现类似OpenAI o3的“thinking-with-image”能力:Mini-o3浅尝 原创

发布于 2025-9-11 09:13
浏览
0收藏

VLMs已具备调用图像中心工具的能力,称为“thinking-with-image”(以图思考),通过支持细粒度推理提升模型对复杂视觉场景的理解能力。然而,开源VLMs在“需要试错探索的复杂视觉搜索任务”中存在显著短板,表现两大问题:

  1. 复杂任务上准确率极低
    高难度视觉搜索数据集熵(如DeepEyes)的准确率远低于实际应用需求。
  2. 推理模式单一 + 交互轮次有限
    现有开源模型(如DeepEyes)无法生成灵活的推理策略,仅能进行“单次定位-观察”的简单流程,而无法像OpenAI o3(闭源模型)那样,采用“深度优先搜索”“试错探索”“自我反思”等多样化策略。例如,在寻找图像中隐藏的小目标时,开源模型往往“一次裁剪错误即终止”,而o3会“回溯至原始图像、尝试其他区域、交叉验证观察结果”。在开源模型上复现类似OpenAI o3的“thinking-with-image”能力:Mini-o3浅尝-AI.x社区
  3. 不同交互回合数下正确轨迹的分布情况。Mini-o3 展现出更深层次的思考路径和更强的性能表现。尽管在训练阶段上限较小(即 6 回合),其仍表现出测试时回合数的缩放特性:当最大回合数从 4 增加到 32 时,准确率持续上升。

下面看下这份“复现OpenAI o3风格行为”的技术食谱,包括数据集构建、数据收集 pipeline、强化学习优化策略三部分。

方法

Mini-o3 的交互遵循 “Thought(思考)-Action(动作)-Observation(观察) ” 循环,直到输出最终答案或达到上下文 / 轮次限制。

在开源模型上复现类似OpenAI o3的“thinking-with-image”能力:Mini-o3浅尝-AI.x社区

多轮 Agentic 图像工具调用框架:在每一轮中,模型基于前一次的观察(或输入问题和图像)迭代生成思考和动作。每一轮的观察结果是根据相应动作所指示的参数获取的。

  • Thought(Tᵢ) :模型基于历史交互记录(含输入图像、问题、过往观察)生成的内部推理过程,用于指导下一步动作。核心目标是鼓励“试错探索”“回溯验证”等多样化推理模式,而非单一路径。
  • Action(Aᵢ)  : 模型执行的具体操作,分为两类:

     a.​​bbox_2d​​:归一化边界框(范围[0,1]²),指定裁剪区域;

     b.​​source​​:操作对象,可选择“原始图像”或“历史观察结果”(支持跨轮次回溯)。

(1)Grounding:通过参数化指令调用图像工具,裁剪特定区域。参数包括:

(2)输出最终答案:当模型判断已获取足够信息时,直接返回结果。

  • Observation(Oᵢ) : 执行Action后得到的环境反馈,即工具裁剪后的图像 patch。该结果会被追加到交互历史中,作为下一轮推理的输入。

因此得出循环逻辑:用户输入(图像+问题)→ 模型生成Thought→ 执行Action→ 获得Observation→ 基于新历史再次生成Thought→ …→ 输出答案/终止。

两阶段训练范式

为平衡“基础能力初始化”与“复杂推理优化”,Mini-o3分阶段训练:

  • 阶段1:SFT:让模型掌握“合法的多轮交互轨迹生成能力”,即学会根据问题和图像,生成符合逻辑的Thought-Action-Observation序列,避免无意义的工具调用或过早终止。
  • 阶段2:带可验证奖励的强化学习(RLVR):在SFT基础上,通过强化学习优化模型的推理策略,提升复杂任务的成功率(如需要10+轮交互的视觉搜索)。

训练数据构建

为解决现有视觉数据集任务简单、无法激发复杂推理的痛点,构建两类数据:“挑战性任务数据集”与“多样化交互轨迹数据集”。

设计逻辑:

现有开源模型推理能力薄弱的关键原因之一是:训练数据多为“目标易定位、无需试错”的简单任务(如HR-Bench),模型仅需“单次图像观察”即可输出答案,无需发展多轮推理策略。因此,Mini-o3的训练数据构建围绕两大需求展开:

  1. 任务层面:提供“必须通过试错探索才能完成”的高难度视觉搜索任务,迫使模型主动调用图像工具进行多轮交互;
  2. 轨迹层面:提供“覆盖多样化推理策略”的多轮交互范例,帮助基座模型(Qwen2.5-VL-7B-Instruct)初始化“Thought-Action-Observation”循环能力。
两类数据集情况
  1. 视觉探针数据集

在开源模型上复现类似OpenAI o3的“thinking-with-image”能力:Mini-o3浅尝-AI.x社区

为强化学习RL提供“需要试错探索的挑战性任务”,避免模型在简单任务上形成“shortcut学习”(如直接定位目标,无需多轮推理),强制模型发展深度推理能力。任务形式:每条样本为“高分辨率图像+视觉搜索问题+标准答案”,例如:

  • 图像:包含密集干扰物的集装箱场景(分辨率7952×5304);
  • 问题:“‘67.200’下方的数字是什么?”;
  • 标准答案:“22G1”。

作用:为后续训练提供需要复杂推理的任务基础,确保强化学习阶段模型能学到“试错探索”“回溯验证”等高级策略,而非简单的“目标定位”能力。

  1. 多样化冷启动数据集

在开源模型上复现类似OpenAI o3的“thinking-with-image”能力:Mini-o3浅尝-AI.x社区

冷启动数据采集pipline

解决基座模型(Qwen2.5-VL-7B-Instruct)的“能力初始化”问题:该模型未接触过多轮图像工具交互数据,直接用强化学习训练会导致“轨迹过短”“推理模式单一”(如平均仅1轮交互)。因此,需通过冷启动数据教会模型“如何生成合法、多样的多轮交互轨迹”。

轨迹形式:每条轨迹为“输入图像+问题+多轮Thought-Action-Observation序列+最终答案”,例如:

  • 问题:“‘CINKER PICTURES’下方的文本是什么?”;
  • 轨迹:11轮交互,包含“裁剪A区域(未找到)→ 回溯原始图像→ 裁剪B区域(未找到)→ 重新检查A区域细节→ 定位目标”等步骤,每轮均附带推理Thought(如“当前区域未发现目标,需尝试右侧区域”)。

强化学习策略

  1. 降低单图像最大像素数

基座模型上下文长度固定为32K tokens,而高分辨率图像(默认12M像素)会占用大量tokens,导致单轮图像输入后,剩余tokens仅能支持1-2轮交互,无法满足复杂任务“多轮试错”的需求。

将单图像的最大像素数从12M降至2M。这一调整在不损失关键细节的前提下,大幅减少单轮图像的token占用,使得32K上下文可支持6+轮交互,为试错探索提供足够的轨迹长度。

在开源模型上复现类似OpenAI o3的“thinking-with-image”能力:Mini-o3浅尝-AI.x社区

VisualProbe-Hard数据集准确率从36.1%(12M像素)提升至48.0%(2M像素),验证了“更多有效交互轮次”对复杂任务的价值

  1. 翻转掩码策略

在标准GRPO中,若模型生成的轨迹“超过训练轮次上限(6轮)”或“超出上下文长度”(即“超轮次轨迹”),会被标记为“无效轨迹”,奖励设为0。经过奖励归一化后,这类轨迹会产生Negative Advantage,导致模型在训练中被“惩罚”,进而倾向于“过早终止交互”(如3-4轮就输出答案),抑制深度推理能力。

通过引入“Completion Mask”,对超轮次轨迹的损失进行“掩码屏蔽”,避免其产生负向学习信号:

在开源模型上复现类似OpenAI o3的“thinking-with-image”能力:Mini-o3浅尝-AI.x社区

翻转掩码技术示意图。不完整响应指的是超出交互轮次或上下文长度最大限制的响应

在开源模型上复现类似OpenAI o3的“thinking-with-image”能力:Mini-o3浅尝-AI.x社区

如上图,引入“Completion Mask”效果:训练时仅限制6轮,但测试时模型可自然扩展至32轮,且准确率随轮次增加而提升。

性能

在开源模型上复现类似OpenAI o3的“thinking-with-image”能力:Mini-o3浅尝-AI.x社区

在开源模型上复现类似OpenAI o3的“thinking-with-image”能力:Mini-o3浅尝-AI.x社区

在开源模型上复现类似OpenAI o3的“thinking-with-image”能力:Mini-o3浅尝-AI.x社区

参考文献:Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search,https://arxiv.org/pdf/2509.07969v1

本文转载自​大模型自然语言处理​   作者:llmnlp

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-9-11 09:44:36修改
收藏
回复
举报
回复
相关推荐