
不止于“think with image”!快手Kwai Keye发布Thyme,赋予模型超越图像思考的超能力!
导读:快手Kwai Keye团队提出 Thyme (Think Beyond Images) 的新范式,并围绕它构建了一整套技术方案。旨在突破现有方法的限制,赋予开源模型一种更强大、更自主、功能更全面的“超越图像思考”的能力。
OpenAI 推出的 o3 推理模型,首次将图像直接融入推理过程,开创了视觉-文本联合推理的新范式。该能力(Think with Image)自发布以来,受到业界与学术界的广泛关注,多项研究开始探索如何在推理中引入视觉信息以增强模型感知与推理性能。然而,当前模型缺少像OpenAI O3 (OpenAI, 2025)那样丰富的功能集,后者能够执行多样的图像操作,并通过代码同时增强逻辑推理能力。
近日,快手Kwai Keye团队提出 Thyme (Think Beyond Images)——一种全新的多模态推理范式。Thyme 通过赋予模型“代码生成与执行”的能力,极大地扩展了多模态模型的工具使用范围和自主决策水平,并在近 20 个基准测试中取得了显著且稳定的性能提升,尤其在处理高分辨率图像和复杂推理任务上表现出色。
Thyme在社交媒体也引起了热议。
【主要贡献】
1.提出了一个全新的多模态交互范式Thyme
核心思想:让多模态大模型不再局限于被动地“看图”,而是能够主动地通过生成并执行代码,来调用各种工具完成复杂的图像处理和数学计算。
丰富的功能性:模型可以即时进行裁剪、旋转、缩放、对比度增强等多种图像操作,还能处理复杂的数学问题。
高度的自主性:模型能自主判断何时需要使用工具、使用何种工具,并动态生成代码来执行,无需人工为特定任务进行干预。
2. 设计了一套高效的两阶段训练策略 SFT + RL
监督微调 (SFT) 阶段:利用精心构建的约 50 万条高质量样本数据集,快速教会模型生成代码来执行各种操作。这个阶段仅需约 200 GPU 小时,性价比极高。
强化学习 (RL) 阶段:在 SFT 的基础上,通过 RL 进一步优化模型的决策能力。为了解决 RL 阶段的挑战,研究者还:
①构建了高质量 RL 数据集:手动收集和标注了 1 万张高分辨率、高难度的图像问答对,以增强模型在复杂场景下的感知能力。
②提出了创新的 RL 算法 GRPO-ATS:该算法能为文本生成和代码生成设置不同的采样温度(temperature)。具体来说,为文本使用较高的温度以鼓励探索和创造性,为代码使用极低的温度(0.0)以确保生成代码的精确性和可执行性,巧妙地平衡了推理的灵活性和代码的稳定性。
3.构建并开源了完整的配套资源
- 高质量数据集:开源了用于 SFT 和 RL 阶段的全部数据集,包括超过 400 万的原始数据源和精心筛选标注的数据。
- 安全的沙箱环境:开发了一个可以安全执行模型生成的代码并返回结果的沙箱。这个沙箱还简化了代码生成的难度,能自动处理格式、变量定义等问题,提高了代码的可用性。
- 完整的代码库:将所有训练代码、模型和工具链全部开源,旨在推动整个社区在该方向上的发展和应用。
【📖Homepage】: https://thyme-vl.github.io/
【📊Model】: https://huggingface.co/Kwai-Keye/Thyme-RL
【🏆Github】: https://github.com/Kwai-Keye/Thyme
一、Thyme推理样本展示
先来看几个案例,Thyme在现实场景中如何进行视觉推理?
案例一:裁剪+放大
问题:右侧图像中心底部附近电线杆上的标志指示的是哪条街道?
思考过程:该任务涉及识别图像中心底部附近标志所指示的街道名称。标志看起来较小且有些距离较远,不放大很难清晰地阅读。裁剪并放大该特定区域将增强标志上文字的可见性,从而准确识别街道名称。标志位于图像的下半部分,中心右侧稍偏。通过裁剪该区域,我们可以专注于标志并提高其可读性。裁剪的坐标可以根据标志在整个图像中的位置进行估算。
综述:Thyme首先评估了标志的大小和距离,判断出裁剪并放大对应区域可以提高可见性。接着,它编写代码来裁剪并放大包含标志的区域。最后准确地定位了标志的位置,成功地裁剪并放大了该区域,并正确地回答了问题。
案例二:对比度增强
问题:图像中写了什么?请尝试用简短的词语或短语回答。
思考过程:图像对比度似乎较低,这可能导致 OCR 文本提取效果不佳。文本 c̈ommunitiesï较为模糊,与背景混为一体,使得 OCR 系统难以准确识别字符。增强对比度能让文本更清晰地从背景中凸显,提高可读性和 OCR 性能。
综述:在OCR任务中,Thyme会适时的增强图像对比度,让需要识别的文字更加清晰。
案例三:图像旋转
问题:请使用 LaTeX 格式写出图像中公式的表达式。
思考过程:图像中的文字似乎倾斜且当前方向难以阅读。为了提高清晰度,通过特定角度旋转图像将有助于正确对齐文字并使其更易于理解。我将进行旋转以增强可读性。
综述:Thyme意识到输入图像的方向不正确,因此它使用Python代码执行旋转操作来调整输入图像的角度,最后进行读取。
案例四:复杂计算
问题:一艘豪华游轮上的厨师想要烤一只鹅。烤一只鹅的时间 t (小时)在 180∘C 取决于鹅的质量 m (千克),根据公式 t = a m^b,其中 a 和 b 是常数。下表给出了在 180∘C 烤一只鹅的观测时间。
综述:Thyme可以将复杂计算操作,转化为代码,避免模型直接预测计算结果。
二、Thyme工作流程
Thyme整体流程主要由两个组件构成:模型和沙盒。
1. 模型接收用户输入问题,输出推理思路。
2. 模型判断问题复杂度,决定是否生成Python代码执行图像处理或计算任务。
3. 若无需代码(简单问题或先前代码已解决),直接输出答案。
4. 如果需要生成代码,模型将自主生成代码。我们的训练数据涵盖了几种类型的图像操作,如裁剪、缩放、旋转、对比度增强和计算。生成代码后,交付给外部沙箱安全执行,其主要功能是安全地处理输入代码并返回执行结果,沙箱负责格式校验、参数调整、错误修正等处理。
5. 最后,沙箱返回执行结果(图像或数值),模型基于结果继续推理,多轮交互直至输出最终答案。
在这里作者强调了MLLM的外部沙盒需要做的一些事情,主要包括一些 自动纠错机制,来尽量保证代码的可用性
- 使用autopep8模块格式化代码,统一缩进和风格。
- 利用ast解析代码变量,自动调整图像裁剪坐标边界,避免越界错误。
- 预置必要变量及模块导入(如cv2、image_path),保证环境一致.
- 记录代码分段变量依赖,解决多段代码执行时上下文丢失问题。
三、Thyme-SFT
训练数据
图 :SFT 数据构建流程
SFT主要构造了三类任务:
- 无需代码直接答复:简单问题直接回答,训练模型判定是否需要代码生成。
- 基于代码的图像操作和计算:包含裁剪、旋转、对比度增强、数学计算等。
- 多轮交互数据:针对图像操作失败的错误修正、连续增强等多轮迭代任务。
对代码生成样本进行严格执行与语义审核,剔除不执行或执行结果错误的代码片段,提高训练样本有效性。手工构建多轮对话数据,教会模型基于上一轮代码执行结果调整策略,具备错误纠正能力。
图 :SFT 数据实例的可视化
训练策略
其中 t 表示样本的最大交互轮数。
在训练过程中,我们遇到了几个挑战。首先,由于两轮对话数据的特殊性,出现了一些意想不到的模式:模型在第一轮倾向于生成错误或不充分的分析和代码,然后在第二轮进行修正,使得第一轮基本上无效。第二个挑战是数学数据相对于图像处理数据的数量相对较少;在联合训练时,模型几乎无法学习生成与计算相关的代码。
使用了一些SFT策略保证多种功能能被成功激活:
- 强制模型仅学习输出最终一轮的有效推理和代码,早期输出轮次内容被遮蔽,避免模型过度依赖第二轮纠正。
- 训练时排除沙箱执行输出标签,防止模型直接模仿沙箱结果,提高推理过程质量。
- 对数学计算数据采用退火训练策略:初始阶段训练图像操作数据,再用较低学习率微调数学推理数据,避免数据不均衡问题。
四、Thyme-RL
最后,我们介绍了在 RL 阶段实现的算法和架构创新。
数据构造
图 :RL 数据实例的可视化
训练策略 GRPO-ATS
格式化奖励:模型输出需要严格遵循特定结构,由标签和标签包围。这鼓励模型在生成最终答案前明确进行推理,提高可解释性。采用on policy的GRPO。
奖励函数包括:
- 结果奖励:比较模型输出与地面真值答案的匹配程度,确保模型输出的正确性。
- 一致性奖励:检查推理过程是否与最终答案一致,以确保推理步骤的合理性。
- 格式奖励:确保输出符合严格的结构规范,增强推理过程的可解释性。
适应性温度采样
温度调整:对于代码生成任务,如图像处理和计算任务,使用低温度(τ = 0)进行采样,以确保代码生成过程的准确性和一致性。对于推理过程,使用较高的温度(τ = 1)来鼓励模型探索更多的解决方案。
这一策略有效避免了模型在生成代码时的过度多样化问题,提高了代码生成的稳定性,并使得推理过程更加灵活多样。
采样优化:
为了减少计算资源浪费,运用Rabin-Karp滚动哈希算法检测过多重复内容;当重复子串长度超过输出长度50%,立即判定为重复并提前终止当前轨迹采样,有效避免资源浪费。
在训练中还强制限制了最大对话轮次,避免模型陷入无意义的循环,从而提高了训练效率。
图 :GRPO-ATS 采样流程
五、实验效果
训练基于32块NVIDIA H800 GPU,强化学习阶段耗时超1200 GPU小时。
感知,推理,通用任务全面提升
在多个基准任务上,Thyme表现出相较于其他多模态模型的优势,尤其是在感知任务上,Thyme即使在与更大规模的模型Qwen-2.5-VL-32B对比时,也依然显示出了显著的优势。这表明,仅仅通过增加模型的规模并不能有效解决感知任务中的挑战,相反,Thyme在测试时的扩展策略对感知任务十分有效。
在推理任务中,通过将复杂的计算转化为可执行代码,Thyme在推理能力上取得了显著的提升。然而,在这一领域,模型规模的扩展带来的优势更为显著,表明推理和逻辑推理能力主要依赖于模型本身的知识量。
由于感知与推理能力的提升,Thyme在许多通用任务中取得了显著的进展,尤其是在减少幻觉现象(hallucination)方面。
深入探讨感知任务
以MME-RealWorld为例,它包括许多现实场景中的高分辨率感知任务。表4展示了Thyme与基线模型在不同任务上的表现。可以看到,对于基线模型已表现良好的任务,如OCR、图表和表格(准确率超过60%,甚至接近90%),Thyme的提升相对较小。然而,对于更困难的任务,如监控与自动驾驶,在这些任务上Qwen-2.5-VL-7B的感知能力较弱时,Thyme的感知和推理任务的提升超过了25%,尤其是在推理任务中,提升更为显著。
【END】
