
长视频理解语义聚合幻觉评估基准;无需蒸馏的VLM文档装好框架;Keye-VL 1.5技术报告,动态分配计算资源
ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding
2025-08-29|SenseTime|🔺51
http://arxiv.org/abs/2508.21496v2
https://huggingface.co/papers/2508.21496
https://github.com/hlsv02/ELV-Halluc
研究背景与意义
- 研究背景视频多模态大型语言模型(Video-MLLMs)在视频理解领域取得了显著进展,但仍存在“幻觉”问题,即生成与视频内容不一致或无关的信息。现有研究多聚焦于短视频的幻觉,归因于语言先验、帧缺失或视觉编码器的偏差。长视频由于包含多事件、多语义层次,幻觉问题更为复杂,尤其存在一种被忽视的“语义聚合幻觉”(Semantic Aggregation Hallucination,SAH),即模型在将帧级语义聚合成事件级语义时发生错误。
- 研究意义针对SAH的系统性研究尚缺乏,ELV-Halluc作为首个专注长视频SAH的基准,填补了该领域的空白。通过精细划分事件、构建对抗性问答对,ELV-Halluc不仅揭示了SAH与视频语义复杂度和语义变化率的正相关关系,还为后续模型优化提供了明确的评估标准和数据支持,推动了长视频理解的可靠性提升。
研究方法与创新
- 技术描述该研究设计了基于事件的视频语义分割,通过半自动化流程结合Gemini-2.5模型生成初始字幕,并由人工校正形成高质量事件级标注。构建了包含8K对问答的对抗性数据集,通过“视频内”和“视频外”两类幻觉问答对区分模型对语义错配的敏感度,提出SAH比例指标衡量模型的语义聚合幻觉程度。
- 创新点突出
- 专注长视频SAH:首次系统定义并量化长视频中因语义聚合错误导致的幻觉问题。
- 事件分割与对抗问答设计:通过事件划分降低语义单元复杂度,同时设计对抗性问答对,精准捕捉模型在事件间语义错配的表现。
- 引入多种RoPE位置编码策略和DPO优化:验证了VideoRoPE位置编码和基于直接偏好优化(DPO)策略在减少SAH方面的有效性,创新性地结合了注意力机制分析,揭示了模型内部语义聚合机制的改进路径。
- 理论基础讨论研究基于视觉语言模型的多模态理解理论,强调事件级语义聚合的复杂性及其对模型可靠性的影响。DPO方法借鉴强化学习中的偏好优化,调整模型对正确语义的关注度,理论上减少了因错误语义聚合引发的幻觉。
- 与现有方法对比相较于传统短视频幻觉研究,ELV-Halluc更全面考虑了长视频多事件、多层次语义的挑战。它不仅在数据规模和复杂度上超越现有基准,还提出了更细粒度的幻觉分类和评估指标,显著提升了幻觉诊断的精确度和针对性。
实验设计与结果分析
- 实验设计
- 评测了14个开源模型(参数规模1B-78B)及2个闭源模型(GPT-4o与Gemini 2.5 Flash),覆盖不同架构和规模。
- 采用ELV-Halluc数据集,比较模型在“视频内”和“视频外”幻觉问答对上的表现,计算整体准确率和SAH比例。
- 探索不同帧采样数量、模型大小、语义类型(视觉细节、动作、对象、声明性内容)对幻觉的影响。
- 针对RoPE编码策略和DPO方法进行消融实验,分析其对SAH的缓解效果。
- 结果分析
- SAH普遍存在且随语义复杂度增加而加剧,特别是在视觉细节和动作变化频繁的语义层面;声明性内容中SAH较少。
- 帧数增加带来更多语义信息,整体幻觉率下降,但SAH比例上升,说明更多帧信息增加了语义聚合的难度。
- 模型规模与整体幻觉率负相关,但对SAH比例影响不显著,表明仅扩大模型容量难以根治SAH。
- VideoRoPE位置编码显著降低了SAH比例,优于传统RoPE变体,表明更强的位置感知能力有助于正确语义聚合。
- DPO优化通过强化模型对正确事件语义的偏好,显著降低SAH比例(最高减少27.7%),并通过注意力权重分析验证了模型对错误语义区域关注度的下降。
- 结合“视频内”和“视频外”训练样本的DPO策略在保持整体性能的同时,实现了对SAH的有效控制。
结论与展望
- 总结贡献本研究首次系统定义并量化了长视频理解中的语义聚合幻觉问题,构建了高质量的ELV-Halluc基准数据集,设计了创新的事件级对抗问答评价体系。通过实证分析揭示了SAH与语义复杂度、变化率的关系,提出了基于位置编码优化和DPO训练的有效缓解策略,显著提升了长视频多模态语言模型的可靠性和理解准确度。
- 局限性分析
- 数据集规模受限于高昂的人工标注成本,可能影响模型泛化能力。
- 初始字幕依赖Gemini-2.5模型,存在潜在偏差,影响部分评测结果的客观性。
- 事件划分虽提升了语义控制,但与真实长视频的多样性和复杂性仍有差距。
- DPO方法的长期效果及其在更大规模、多样化数据上的表现尚待验证。
- 方法展望未来研究可探索更大规模、多样化的长视频数据集,结合更先进的自动注释技术减少人工成本。进一步优化位置编码机制和语义聚合策略,提升模型对复杂事件间关系的理解。结合强化学习和对抗训练,增强模型对语义错配的鲁棒性。最后,拓展SAH的评估指标体系,涵盖更多实用场景,推动长视频理解模型向更高的可靠性和实用性迈进。
POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion
2025-09-01|Tencent, SJTU, THU|EMNLP 2025|🔺39
http://arxiv.org/abs/2509.01215v1
https://huggingface.co/papers/2509.01215
https://github.com/Tencent/POINTS-Reader
研究背景与意义
文档转换,尤其是包含复杂元素如表格、数学公式和多栏文本的文档转换,一直是计算机视觉与自然语言处理领域的难题。传统方法依赖于大量人工标注或通过蒸馏大型模型的知识来训练学生模型,但这些方法成本高昂且难以保证标注质量,蒸馏过程还可能继承教师模型的偏差和不足,限制了模型的真实表现。鉴于此,本文提出了一种无需蒸馏的全自动化框架,旨在构建大规模高质量的文档转换数据集,并训练能够处理多样化文档格式的视觉语言模型。该研究不仅解决了数据标注的瓶颈问题,也为端到端文档理解模型的开发提供了坚实基础,推动了文档转换技术向更高准确性和泛化能力的方向发展。
研究方法与创新
本文方法创新地采用了两阶段策略:
- 统一格式预热阶段(Uniform Format Warm-up Stage)
- 通过设计统一的输出格式,标准化文档中的纯文本、表格和数学公式的表达,消除了多样格式带来的学习复杂度。
- 利用大语言模型生成多样化的文本内容,结合HTML模板渲染成图像,形成大规模合成图文对,用于模型的初步训练。
- 该阶段通过精细的规则过滤表格和公式,确保数据结构的合理性和语法正确性,为模型提供高质量的训练样本。
- 迭代自我提升阶段(Iterative Self-improvement Stage)
- 利用预热阶段训练得到的模型对真实文档进行自动标注,针对生成文本中的遗漏、幻觉和结构错误,设计了多种基于规则的过滤策略,包括基于OCR的F1分数过滤文本、表格结构有效性检测和公式语法校验。
- 通过多轮迭代,模型不断用经过严格筛选的真实数据进行再训练,逐步提升对现实复杂布局文档的理解和转换能力。
- 此策略突破了传统依赖外部模型蒸馏的瓶颈,实现了数据和模型的协同进化,显著提升了模型的泛化性能。
相较于现有依赖蒸馏的端到端方法,本文框架避免了性能瓶颈和偏差继承,且自我提升机制有效利用了真实数据,提升了模型的实用性和准确度。
实验设计与结果分析
- 数据集与实验设置
合成数据涵盖四类文档结构:纯文本、含数学公式的文本、含表格的文本和多栏含表格布局,每类生成20万样本。
真实数据选用DocMatix大规模文档图像集,涵盖学术论文及多种文档类型。
训练基于POINTS-1.5视觉语言模型,结合Qwen2.5-3B大语言模型进行文本生成与指令调优。
- 结果分析
数据多样性显著提升模型性能,尤其是加入多栏布局数据后,模型在阅读顺序和表格识别上获得明显提升。
过滤异常图像长宽比(2到5范围内)和文本F1分数(阈值0.9)有效提升了训练数据质量,避免了模型过拟合非真实分布的合成数据。
自我提升阶段多轮迭代中,模型性能持续稳定提升,F1分数与传统OCR输出的匹配度逐步增强,数据质量和数量同步增长,验证了迭代机制的有效性。
在多个公开基准(OmniDocBench、Fox等)上,POINTS-Reader模型在文本、表格及公式识别任务中均超越了包括Qwen2.5-VL-72B等大型通用视觉语言模型及多款专业OCR模型,尤其在表格识别指标上优势明显。
结论与展望
本文提出的无蒸馏端到端文档转换框架,通过统一格式预热和迭代自我提升两阶段策略,成功构建了大规模高质量训练数据,显著提升了模型对复杂文档元素的识别和转换能力。该方法有效规避了传统蒸馏依赖的局限,实现了模型性能的持续迭代优化,达到了当前先进水平。
未来工作将聚焦于:
- 多语言扩展,突破当前仅支持英文的限制,提升对中文、日文等语言的适应能力;
- 手写文本识别,针对手写笔记等非印刷字体的识别精度进行优化;
- 丰富文档元素支持,包括图像识别与定位,进一步完善文档内容的全面理解与转换;
- 数据多样性拓展,引入更多复杂布局和真实场景,增强模型泛化能力和鲁棒性。
整体而言,该研究为文档视觉语言模型的训练与应用开辟了新路径,具有重要的理论价值和广泛的应用前景。
Kwai Keye-VL 1.5 Technical Report
2025-09-01|KuaishouGroup|🔺26
http://arxiv.org/abs/2509.01563v1
https://huggingface.co/papers/2509.01563
https://github.com/Kwai-Keye/Keye
研究背景与意义
- 背景概述:近年来,大型语言模型(LLMs)迅速发展,推动了多模态大型语言模型(MLLMs)的兴起,使得模型在视觉和语言的结合上具备了强大的理解与生成能力。然而,视频理解因其动态性和信息密集性,仍是一个难点,尤其在空间分辨率与时间覆盖范围之间存在权衡。
- 现有挑战:现有模型多采用固定分辨率和统一帧采样策略,难以兼顾细粒度视觉细节和时间一致性,导致视频内容理解效果不佳。
- 研究目标:提出Keye-VL-1.5模型,通过架构创新、渐进式预训练和全面的后训练策略,提升视频理解能力,同时保持在通用视觉语言任务中的竞争力,解决视频理解中的核心难题。
研究方法与创新
- 架构创新:Slow-Fast视频编码策略
动态分配计算资源,根据帧间相似度划分关键帧(Slow路径,高分辨率)和静态帧(Fast路径,低分辨率但高时间覆盖)。
通过补丁相似度函数识别帧类型,平衡空间细节与时间跨度,避免传统固定采样的缺陷。
- 渐进式四阶段预训练
阶段一冻结视觉和语言模型,仅训练投影层,实现跨模态对齐。
阶段二解冻所有参数,进行多任务预训练,涵盖图像描述、OCR、视觉问答等,强化视觉理解。
阶段三退火阶段,细化模型对高质量样本的理解。
阶段四扩展上下文长度,从8K tokens提升至128K,支持更长视频和复杂视觉内容处理,同时采用模型融合提升鲁棒性。
- 后训练策略:推理能力与人类偏好对齐
设计五步链式思维(Chain-of-Thought)数据构建流程,生成高质量冷启动推理数据。
应用基于GSPO的可验证奖励强化学习,结合渐进式提示采样处理难题,迭代提升模型推理表现。
进行对齐强化学习,改善指令遵循、响应格式和偏好匹配,确保模型输出符合人类期望。
实验设计与结果分析
- 数据构建与多样性
训练数据超过1万亿tokens,涵盖图像描述、OCR、视觉问答、目标定位、计数、视频理解等多模态任务,融合公开数据与高质量内部数据。
特别设计视频数据管道,包括帧级OCR、视频重排序、多视频匹配等任务,强化时间和语义理解。
- 评价指标与基准测试
在公开视频理解基准上,Keye-VL-1.5相较同规模模型表现显著提升,尤其在视频中心任务上表现领先。
内部评测结合人工评估,验证模型在理解深度、推理准确性和人类偏好对齐方面的优势。
- 消融实验
分析不同训练阶段(SFT、MPO、LongCoTColdStart)对性能的贡献。
验证专家模型和模型合并策略的有效性。
强化学习阶段的部分解决方案和拒绝采样机制对模型表现的影响。
结论与展望
- 研究贡献总结
Keye-VL-1.5通过创新的视频编码策略和渐进式训练,成功突破了视频理解中的空间与时间权衡难题。
后训练阶段系统提升了模型的推理能力和人类偏好对齐,确保输出的实用性和可靠性。
实验结果表明模型在视频理解和通用视觉语言任务中均取得了领先水平。
- 局限分析
模型参数量为80亿,虽在性能上表现优异,但仍存在进一步扩展和优化空间。
训练和推理资源消耗较大,实际部署需考虑效率与成本平衡。
- 未来展望
探索更高效的动态帧处理和编码机制,进一步提升长视频理解能力。
加强多模态跨任务迁移与泛化能力,支持更多实际应用场景。
深化人机交互中的偏好学习,提升模型对复杂指令和多轮对话的适应性。
本文转载自AI研究前瞻,作者:胡耀淇
