
Ovis2.5:多模态大模型的进化之路 原创
随着人工智能技术的飞速发展,多模态大语言模型(MLLMs)已成为AI领域的重要研究方向。这类模型能够同时处理文本、图像、视频等多种模态的信息,为实现通用人工智能奠定了重要基础。近日,阿里巴巴集团的Ovis团队发布了最新的Ovis2.5技术报告,展示了在多模态理解和推理方面的显著进步。本文将深入解析Ovis2.5的技术创新、架构设计以及性能表现,探讨其在多模态AI领域的重要意义。
1.Ovis发展之路
Ovis系列模型的发展体现了多模态AI技术的演进轨迹。在之前的工作中,Ovis团队识别出传统多模态架构中的一个关键问题:视觉嵌入(来自MLP投影器的连续结构)与文本嵌入(离散结构)之间存在结构性不匹配。为此,他们提出了Ovis架构,通过可学习的视觉嵌入表(Visual Embedding Table)来结构化地对齐文本和视觉嵌入,并通过实验验证了其相对于传统设计的优越性。
从Ovis 1.5到Ovis2.0的迭代过程中,模型逐步增强了处理高分辨率图像、多图像和视频输入、OCR任务、多语言场景以及数学推理等复杂问题的能力。每个版本在发布时都在同等规模的开源模型中展现出领先性能。然而之前的模型在需要深度推理或详细分析视觉密集内容(如复杂图表)的任务上仍存在不足。
2.Ovis2.5的核心创新
传统的多模态模型通常采用固定分辨率的视觉变换器(ViT),需要将图像分割成固定大小的子图像进行处理,这种方法会破坏全局结构和精细细节。Ovis2.5引入了原生分辨率视觉变换器(NaViT),能够直接处理各种原生分辨率的图像,避免了有损的图像分块,保留了对图表、图形等视觉密集内容至关重要的精细细节和全局布局信息。
NaViT的实现整合了旋转位置嵌入(RoPE),在每个ViT块中强化空间感知能力,这对高分辨率图像(如复杂图表)的处理特别有效。该技术从siglip2-so400m-patch16-512的权重初始化,确保了模型的稳定性和效果
Ovis2.5的另一项重要创新是引入了"思考模式"(thinking mode),这是通过在包含反思过程(如自我检查和修订)的深度推理数据上进行训练实现的。与传统的线性思维链(CoT)不同,这种训练方法教会模型产生中间步骤来评估自己的推理过程,并在必要时完善结论,从而实现更深入、更稳健的推理。
这种深度推理能力在推理时作为可选功能提供,用户可以根据需要选择关闭该模式以提高效率,或在处理复杂问题时启用它以牺牲延迟换取更高的准确性。
Ovis2.5将语言模型骨架从Qwen2.5升级到Qwen3,充分利用了Qwen3在深度推理方面的优越能力,显著提升了模型在复杂任务上的性能和整体多模态能力。
Ovis2.5保留了Ovis架构的基础设计,由三个核心模块组成:视觉分词器(VT)基于Transformer的组件,从图像片段中提取特征。视觉头将每个片段的特征投影到"视觉词"的离散词汇表上,产生该词汇表上的概率分布。视觉嵌入表(VET)类似于LLM中的文本嵌入表,VET为每个视觉词存储专用嵌入,这种设计缓解了模态间的结构性不匹配。最终的视觉嵌入通过对表中嵌入进行VT产生的概率加权求和计算得出。
3.训练策略与数据组成
Ovis2.5采用了全面的五阶段训练课程,逐步构建模型从基础感知到高级推理的能力。
预训练阶段包含三个阶段:
P1: VET预训练:主要训练视觉嵌入表,使用图像-标题对数据集,采用非对话格式的纯文本。
P2: 多模态预训练:过渡到所有模块的全参数训练,建立核心视觉理解并与对话格式对齐。
P3: 多模态指令调优:继续全参数训练,重点增强模型遵循多样化多模态指令的能力。
后训练阶段包含两个阶段:
P1: 多模态DPO使用直接偏好优化改善模型性能。
P2: 使用组相对策略优化(GRPO)进一步改善推理能力。
训练数据包含多个关键组成部分:OCR数据结合公开数据集和内部收集的多样化图像,包括文档、图表、海报和截图。定位数据来自RefCoCo等公开数据集和自动化管道生成的数据。推理数据包括传统CoT数据和"思考风格"数据,后者使用<think>...</think>标签进行标注。
4.性能评估与基准测试
在OpenCompass多模态排行榜上,Ovis2.5-9B取得了78.3的平均分,Ovis2.5-2B取得了73.9分,均在各自规模的开源模型中达到了最先进的水平。这些结果不仅代表了相对前代Ovis2-8B的显著改进,也在40B参数以下的开源MLLM中建立了新的技术标杆。
在多模态推理基准测试中,Ovis2.5展现出卓越的性能,在MathVista和WeMath上取得领先成绩,展示了在视觉组合和概念集成任务上的卓越能力。在MMMU上获得71.2分,在更具挑战性的MMMU-Pro上获得54.4分。逻辑推理在LogicVista等基准上保持前列位置。
Ovis2.5在OCR和图表分析方面表现突出。在大规模双语OCRBench v2上不仅超越了所有领先的开源竞争对手,还优于专有的GPT-4o模型。在复杂图表分析基准ChartQA Pro上取得领先成绩,证明了其在处理从传统图表到复杂信息图表等多样化可视化内容方面的能力。
本文转载自鲁班模锤,作者:庞德公
