NVIDIA发布Eagle 2.5:长文本理解的“新星”,如何打破视觉-语言模型的局限? 原创

发布于 2025-4-28 09:23
浏览
0收藏

在多模态学习领域,视觉-语言模型(VLMs)的飞速发展让我们看到了不同模态之间融合的巨大潜力。然而,尽管取得了显著的进步,这些模型大多集中在短文本任务上,对于长文本的理解能力却始终是它们的“软肋”。尤其是在处理长视频理解和高分辨率图像/视频理解时,如何有效处理扩展的视觉上下文,依然是一个亟待解决的难题。

长文本理解的困境与挑战

长文本理解的不足,很大程度上是因为现有的视觉-语言模型在数据集构建、架构设计、训练策略以及计算/内存瓶颈等方面都面临着诸多挑战。虽然之前的研究尝试过扩展上下文长度,但效果并不理想:与专有模型相比,性能提升有限;随着视觉输入的增加,改进效果也不一致;而且,最优的训练策略也尚未明确。

Eagle 2.5:长文本训练的“破局者”

在这样的背景下,NVIDIA推出的Eagle 2.5模型,就像一颗璀璨的新星,为长文本视觉-语言模型的发展带来了新的希望。与那些仅仅为了处理更长多模态序列而牺牲性能的模型不同,Eagle 2.5在增加输入长度的同时,能够实现一致的性能提升,而不仅仅是容纳更长的输入。它在上下文覆盖方面表现出色,并且随着帧数的增加,性能呈一致的上升趋势。与GPT-4o和Qwen2.5-VL-72B等参数量更大的模型相比,Eagle 2.5在性能上毫不逊色,同时却保持着更小的参数规模。

图像和视频理解的卓越表现

Eagle 2.5在图像和视频理解的多个基准测试中都展现出了非凡的性能,无论是与开源模型还是专有模型相比,都取得了极具竞争力的结果。在视频理解方面,Eagle2.5-8B在多个视频基准测试中都取得了令人瞩目的成绩:在MVBench上达到了74.8,在Perception_test上达到了82.0,在EgoSchema上达到了72.2,轻松超越了类似规模的InternVL2.5-8B(72.0)和Qwen2.5-VL-8B(69.6、70.5、65.0)。在长视频理解方面,Eagle 2.5更是表现出色,在MLVU上达到了77.6,在LongVideobench上达到了66.4,甚至超过了InternVL2.5-78B(75.7、63.6)。在VideoMME(无字幕)上,Eagle 2.5达到了72.4,与拥有72B参数的模型极为接近,但使用的参数却少得多。

NVIDIA发布Eagle 2.5:长文本理解的“新星”,如何打破视觉-语言模型的局限?-AI.x社区

在图像理解方面,Eagle2.5-8B同样表现出色,涵盖了文档理解(DocVQA上达到94.1,ChartQA上达到87.5)、信息提取(InfoVQA上达到80.4,TextVQA上达到83.7)以及光学字符识别(OCRBench上达到869)等多个领域。此外,该模型在通用感知和推理任务(MMstar上达到66.2,RWQA上达到76.7,MMB₁.₁上达到81.7)、特定领域的知识(MMMU上达到55.8,AI2D上达到84.5)、视觉幻觉评估(HallB上达到54.7)以及数学推理(MathVista上达到67.8)等方面也展现出了均衡的能力。

NVIDIA发布Eagle 2.5:长文本理解的“新星”,如何打破视觉-语言模型的局限?-AI.x社区

独特的训练策略:信息优先采样与渐进式训练

Eagle 2.5之所以能够取得如此优异的性能,其训练策略功不可没。该策略包含两个关键组成部分:信息优先采样和渐进式训练。

NVIDIA发布Eagle 2.5:长文本理解的“新星”,如何打破视觉-语言模型的局限?-AI.x社区

信息优先采样

在多模态训练中,视觉内容的采样至关重要。多图像文档通常包含数十页超高分辨率的图像,而视频内容的长度则可以从几秒到几小时不等。为了有效管理这种多样性,Eagle 2.5提出了信息优先采样策略,从视觉和语义两个维度促进信息的保留。

  • 图像区域保护(IAP):传统的平铺方法将大小为W×H的图像划分为一个固定的网格。虽然这种方法在处理高分辨率输入时效果不错,但往往会因为不恰当的宽高比处理而扭曲原始图像的几何形状。为了解决这个问题,Eagle 2.5提出了一种以面积优先的平铺策略,优化了两个关键目标:面积保护和宽高比保真度。
  • 自动降级采样(ADS):视觉-语言模型需要在视觉和文本输入之间仔细分配序列长度预算。Eagle 2.5提出了自动降级采样(ADS),这是一种以全上下文为中心的策略,动态优化这种平衡。ADS采用双阶段降级过程:时间降级首先优化帧或页面的采样,然后是平铺降级,以最大化利用可用上下文。

渐进式训练

Eagle 2.5还引入了一个全面的后训练框架,包含两种互补的策略:

  • 混合后训练:ADS方法根据最大序列长度自适应调整每个训练样本,提供了一种与帧无关的训练范式。通过实施混合训练策略和长度平衡打包,Eagle 2.5能够在整个上下文长度范围内均匀优化性能。
  • 渐进式混合后训练:对于最大序列长度值较大的场景,Eagle 2.5提出了一种渐进式混合训练方法,逐渐让模型接触到越来越长的序列长度,系统地增强其处理扩展上下文的能力。

NVIDIA发布Eagle 2.5:长文本理解的“新星”,如何打破视觉-语言模型的局限?-AI.x社区

Eagle-Video-110K:为长文本理解量身定制的多样化视频数据集

现有的视频数据集往往包含的视频过短,无法满足全面长文本理解的需求。Eagle-Video-110K通过从多个来源(如Vidchapters、MiraData、InternVid-10M、Panda-70M、Vript、Shot2story、ViTT和WebVid-10M)精心策划一系列较长的视频,解决了这一局限性。通过采用基于CLIP嵌入和相似性阈值的多样性驱动策略,Eagle-Video-110K能够识别并选择显著延长训练和评估可用平均时长的全新视频。

NVIDIA发布Eagle 2.5:长文本理解的“新星”,如何打破视觉-语言模型的局限?-AI.x社区

Eagle-Video-110K的另一个亮点是其独特的双注释管道,结合了自上而下和自下而上的方法,以实现全面的视频理解。在自上而下的方法中,利用人类注释的章节作为语义上有意义的视频片段,通过GPT-4o生成章节级密集字幕和长形式问答对。与此同时,自下而上的方法则专注于局部时空细节,通过GPT-4o生成带有时间间隔参考和文本上下文锚点的剪辑级问答对。这种分层方法使得模型能够同时实现细粒度的时空理解和高级语义理解,为长文本视频推理提供了有力支持。

NVIDIA发布Eagle 2.5:长文本理解的“新星”,如何打破视觉-语言模型的局限?-AI.x社区

Eagle-Video-110K对视频理解性能产生了显著影响。它不仅在主流的长视频和短视频基准测试中提升了模型性能,还通过提供之前开源训练集中缺失的更长视频训练数据,大幅提高了模型处理高帧数(≥128帧)的能力。这一改进在Video-MME基准测试中尤为明显,Eagle 2.5在使用Eagle-Video-110K训练时,随着帧数的增加,性能呈一致的上升趋势,而其他模型则会趋于平稳甚至退化。

性能与基准测试

Eagle 2.5-8B在多个视频和图像理解任务中展现出了强大的性能。在视频基准测试中,它在MVBench上达到了74.8,在MLVU上达到了77.6,在LongVideoBench上达到了66.4。在图像基准测试中,该模型在DocVQA上达到了94.1,在ChartQA上达到了87.5,在InfoVQA上达到了80.4等。

NVIDIA发布Eagle 2.5:长文本理解的“新星”,如何打破视觉-语言模型的局限?-AI.x社区

消融研究表明了Eagle采样策略的重要性。移除IAP会导致在高分辨率基准测试中性能下降,而省略ADS则会降低在需要密集监督的任务中的有效性。模型还从渐进式训练中受益:逐步增加上下文长度相比一次性长文本训练能够带来更稳定的性能提升。此外,加入Eagle-Video-110K显著提高了在高帧数(≥128帧)下的性能,进一步凸显了专门的长文本数据集的价值。

结论

Eagle 2.5为长文本视觉-语言建模提供了一种技术上合理的方法。它强调保持上下文完整性、逐步训练适应以及数据集多样性,使其能够在保持架构通用性的同时实现强大的性能。Eagle 2.5证明了,通过精心设计的训练策略和数据设计,而非仅仅依赖模型扩展,可以打造出高效、有竞争力的复杂多模态理解系统。这使得Eagle 2.5成为构建更适合现实世界多媒体应用的更具上下文感知能力的AI系统的重要一步。


本文转载自公众号Halo咯咯    作者:基咯咯

原文链接:​​https://mp.weixin.qq.com/s/pJECaBj-yRxL9xlDx2fY-A​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-4-28 09:23:26修改
收藏
回复
举报
回复
相关推荐