Ovis2.5：多模态大模型的进化之路原创

发布于 2025-8-29 07:29

浏览

0收藏

Ovis2.5：多模态大模型的进化之路-AI.x社区

随着人工智能技术的飞速发展，多模态大语言模型（MLLMs）已成为AI领域的重要研究方向。这类模型能够同时处理文本、图像、视频等多种模态的信息，为实现通用人工智能奠定了重要基础。近日，阿里巴巴集团的Ovis团队发布了最新的Ovis2.5技术报告，展示了在多模态理解和推理方面的显著进步。本文将深入解析Ovis2.5的技术创新、架构设计以及性能表现，探讨其在多模态AI领域的重要意义。

1.Ovis发展之路

Ovis系列模型的发展体现了多模态AI技术的演进轨迹。在之前的工作中，Ovis团队识别出传统多模态架构中的一个关键问题：视觉嵌入（来自MLP投影器的连续结构）与文本嵌入（离散结构）之间存在结构性不匹配。为此，他们提出了Ovis架构，通过可学习的视觉嵌入表（Visual Embedding Table）来结构化地对齐文本和视觉嵌入，并通过实验验证了其相对于传统设计的优越性。

Ovis2.5：多模态大模型的进化之路-AI.x社区

从Ovis 1.5到Ovis2.0的迭代过程中，模型逐步增强了处理高分辨率图像、多图像和视频输入、OCR任务、多语言场景以及数学推理等复杂问题的能力。每个版本在发布时都在同等规模的开源模型中展现出领先性能。然而之前的模型在需要深度推理或详细分析视觉密集内容（如复杂图表）的任务上仍存在不足。

2.Ovis2.5的核心创新

传统的多模态模型通常采用固定分辨率的视觉变换器（ViT），需要将图像分割成固定大小的子图像进行处理，这种方法会破坏全局结构和精细细节。Ovis2.5引入了原生分辨率视觉变换器（NaViT），能够直接处理各种原生分辨率的图像，避免了有损的图像分块，保留了对图表、图形等视觉密集内容至关重要的精细细节和全局布局信息。

NaViT的实现整合了旋转位置嵌入（RoPE），在每个ViT块中强化空间感知能力，这对高分辨率图像（如复杂图表）的处理特别有效。该技术从siglip2-so400m-patch16-512的权重初始化，确保了模型的稳定性和效果

Ovis2.5的另一项重要创新是引入了"思考模式"（thinking mode），这是通过在包含反思过程（如自我检查和修订）的深度推理数据上进行训练实现的。与传统的线性思维链（CoT）不同，这种训练方法教会模型产生中间步骤来评估自己的推理过程，并在必要时完善结论，从而实现更深入、更稳健的推理。

这种深度推理能力在推理时作为可选功能提供，用户可以根据需要选择关闭该模式以提高效率，或在处理复杂问题时启用它以牺牲延迟换取更高的准确性。

Ovis2.5将语言模型骨架从Qwen2.5升级到Qwen3，充分利用了Qwen3在深度推理方面的优越能力，显著提升了模型在复杂任务上的性能和整体多模态能力。

Ovis2.5保留了Ovis架构的基础设计，由三个核心模块组成：视觉分词器（VT）基于Transformer的组件，从图像片段中提取特征。视觉头将每个片段的特征投影到"视觉词"的离散词汇表上，产生该词汇表上的概率分布。视觉嵌入表（VET）类似于LLM中的文本嵌入表，VET为每个视觉词存储专用嵌入，这种设计缓解了模态间的结构性不匹配。最终的视觉嵌入通过对表中嵌入进行VT产生的概率加权求和计算得出。