多模态LLM统一嵌入学习;基于心理意象模拟的感知视角推理;动态视觉token压缩框架

发布于 2025-4-27 23:54
浏览
0收藏

Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs

2025-04-24|USYD, Deep Glint, Alibaba Group, ICL(Imperial)|🔺28

http://arxiv.org/abs/2504.17432v1​​
​​https://huggingface.co/papers/2504.17432​​
​​https://garygutc.github.io/UniME

研究背景与意义

多模态LLM统一嵌入学习;基于心理意象模拟的感知视角推理;动态视觉token压缩框架-AI.x社区

  • 背景概述:当前多模态表示学习领域,CLIP框架因其跨模态对比学习能力被广泛采用,尤其在图文检索和聚类任务中表现突出。然而,CLIP存在文本长度限制、图文编码解耦以及组合性不足等瓶颈,限制了其在复杂多模态任务中的表现。
  • 挑战点:现有模型难以有效捕捉细粒度语义和复杂指令,且在区分难负样本时表现不佳,影响了多模态表示的判别能力和泛化性能。
  • 研究目标:本文提出UniME框架,旨在突破模态壁垒,利用多模态大语言模型(MLLMs)学习通用且具备强判别能力的多模态嵌入,提升跨任务的表现力和组合理解能力。

研究方法与创新

多模态LLM统一嵌入学习;基于心理意象模拟的感知视角推理;动态视觉token压缩框架-AI.x社区

多模态LLM统一嵌入学习;基于心理意象模拟的感知视角推理;动态视觉token压缩框架-AI.x社区

技术框架:UniME采用两阶段训练策略:

  • 文本判别知识蒸馏:从强大的LLM教师模型迁移判别知识,增强MLLM语言组件的嵌入能力。该阶段通过文本输入训练,利用KL散度对齐学生模型与教师模型的嵌入分布,有效克服因自回归结构导致的判别力不足。
  • 难负样本增强指令调优:通过过滤伪负样本和采样多样化的难负样本,强化模型对细粒度差异的敏感性,提升跨模态对齐和指令执行能力。该阶段结合多模态输入和任务特定指令,进一步优化嵌入判别力。

创新点

  • 引入基于教师模型的判别知识蒸馏,显著提升语言组件嵌入的判别力。
  • 设计伪负样本过滤机制和多难负样本采样策略,有效解决难负样本辨识难题,增强模型泛化能力。
  • 结合任务指令调优,提升复杂检索和视觉问答等任务的执行效果。

理论基础:结合信息论中的KL散度优化和对比学习中的InfoNCE损失,理论上保证了模型在判别性和对齐能力上的提升。

实验设计与结果分析

多模态LLM统一嵌入学习;基于心理意象模拟的感知视角推理;动态视觉token压缩框架-AI.x社区

实验设计

  • 训练数据涵盖273k自然语言推理文本对和MMEB基准中的20个多模态任务数据,保证多样性和任务覆盖。
  • 评估指标主要为Precision@1和Recall@1,覆盖分类、视觉问答、检索和视觉定位等多种任务。
  • 对比基线包括CLIP、EVA-CLIP、E5-V、VLM2Vec等多模态模型,涵盖不同规模和结构。

主要结果

  • UniME在MMEB基准上平均提升4.1%-4.2%的性能,尤其在视觉问答和检索任务中表现突出。
  • 在短文本和长文本图文检索任务中,UniME通过两阶段训练分别带来显著提升,最终性能超过VLM2Vec和EVA-CLIP。
  • 组合性检索任务中,UniME展示了更强的语义理解和判别能力,部分指标提升幅度达15.9%以上。
  • 统计显著性:训练过程中,硬负样本带来的梯度显著高于易负样本,训练损失稳定且收敛良好,表明模型有效学习了更具挑战性的判别信息。
  • 多场景表现:UniME在跨模态多任务、不同数据分布(内外部分布)下均表现出稳健性和优越性,验证了其通用嵌入的有效性。

结论与展望

研究贡献总结

  • 提出了一种创新的两阶段训练框架,成功提升了MLLM的多模态判别嵌入能力。
  • 通过知识蒸馏与难负样本增强,显著改善了模型在细粒度语义理解和复杂指令执行上的表现。
  • 实验验证了UniME在多任务、多数据集上的优越性能,推动了多模态大语言模型在通用嵌入学习领域的应用。

局限性分析

  • 训练过程对计算资源需求较高,尤其是在大规模硬负样本采样阶段。
  • 目前模型在极长文本处理和极端复杂组合任务上仍有提升空间。

未来展望

  • 探索更高效的硬负样本采样与过滤机制,降低训练成本。
  • 结合更先进的视觉编码器和更大规模预训练数据,进一步提升模型泛化能力。
  • 拓展模型在跨模态生成、交互式多模态理解等更广泛应用场景中的表现。

Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation

2025-04-24|KAIST, Stanford U, NVIDIA|🔺18

http://arxiv.org/abs/2504.17207v1​​
​​https://huggingface.co/papers/2504.17207​​
​​https://apc-vlm.github.io/

研究背景与意义

多模态LLM统一嵌入学习;基于心理意象模拟的感知视角推理;动态视觉token压缩框架-AI.x社区

  • 问题定义与挑战视觉语言模型(VLMs)在空间推理方面取得了显著进展,但仍存在严重的视角偏见,主要局限于摄像头视角的自我中心(egocentric)空间理解,难以实现从任意参考视角(allocentric)进行空间推理。该缺陷限制了VLMs在导航、环境交互和协作等高阶智能任务中的应用能力。
  • 现状概述现有研究多聚焦提升VLMs的自我中心空间推理能力,尽管通过深度学习和视觉适配器等技术增强了模型对空间关系的感知,但对视角转换的支持仍极其有限。即使有指令调优尝试,模型仍倾向于回归摄像头视角,缺乏真正的多视角空间理解能力。
  • 研究意义该论文提出通过模拟人类“心理意象”(mental imagery)机制,构建抽象的场景表示,使VLMs能够从任意视角进行空间推理,突破了传统VLMs的视角限制。这不仅提升了模型的空间认知能力,也为实现更接近人类的视觉理解和智能交互奠定了基础。

研究方法与创新

多模态LLM统一嵌入学习;基于心理意象模拟的感知视角推理;动态视觉token压缩框架-AI.x社区

多模态LLM统一嵌入学习;基于心理意象模拟的感知视角推理;动态视觉token压缩框架-AI.x社区

核心方法框架——APC(Abstract Perspective Change)APC框架由三个关键阶段构成:

  • 数值文本提示,直接提供3D坐标和方向信息;
  • 抽象视觉提示,将对象以彩色立方体形式渲染,形成简化视觉场景,辅以对应的文本映射,强化模型的空间感知。
  1. 场景抽象构建:利用现成的视觉基础模型(如目标检测、图像分割、方向估计)从输入图像中提取对象,构建包含对象3D位置和朝向的粗略三维抽象表示。
  2. 视角转换:选定参考视角(参考观察者),将抽象场景从摄像头坐标系转换到该视角的自我中心坐标系,实现视角的“重新定位”。
  3. 视角提示生成:将转换后的抽象场景以两种形式输入VLM:

创新点

  • 模拟人类心理意象,通过构建抽象的三维场景表示,使VLMs摆脱对原始摄像头视角的依赖,实现多视角空间推理。
  • 视角转换机制,将复杂的allocentric问题转化为VLM擅长处理的egocentric问题,巧妙利用现有模型的能力。
  • 多模态提示设计,数值与视觉提示的结合,既提供精确的空间信息,又保留视觉直观性,提升推理准确性和鲁棒性。
  • 通用性强,框架适用于多种空间推理任务和数据集,无需专门针对特定任务或视角进行微调。

理论基础

     研究借鉴认知科学中关于心理意象的理论,强调人类通过抽象视觉和空间表征实现视角切换的能力,为计算机视觉提供了新的启发。

实验设计与结果分析

多模态LLM统一嵌入学习;基于心理意象模拟的感知视角推理;动态视觉token压缩框架-AI.x社区

多模态LLM统一嵌入学习;基于心理意象模拟的感知视角推理;动态视觉token压缩框架-AI.x社区

实验设计

  • 采用两个主流空间推理基准:
  • 对比对象包括多款开源和专有VLM(如Qwen2.5-VL、LLaVA、GPT-4o等)、专门针对空间推理设计的模型(SpatialVLM、SpatialRGPT、SpatialPIN)以及基于密集重建的视角合成方法(SpatialPIN*、ViewCrafter)。
  • 评估指标为空间推理准确率,特别关注模型在不同视角偏差(角度θ)下的表现,以测试视角感知能力的鲁棒性。
  1. **COMFORT++**(合成场景,评估左/右、远近、可见性和朝向等多种空间关系);
  2. 3DSRBench(真实图像,涉及多视角空间推理)。

结果分析

  • APC显著超越所有基线,视觉提示版本(APC-Vis)在COMFORT++左/右任务中达到近90%准确率,较最佳基线提升约40个百分点。
  • 在更复杂的可见性和朝向任务中,APC依然保持60%以上准确率,表现优于多数基线。
  • 数值提示版本虽稍逊于视觉提示,但也大幅领先传统方法。
  • 在3DSRBench真实图像任务中,APC同样展示出强劲性能,表明框架对现实场景具备良好适应性。
  • 视角偏差实验显示,传统模型准确率随视角偏移显著下降,而APC在整个角度范围内均保持高准确率,验证了其强大的视角转换和多视角推理能力。
  • 视觉提示能够有效缓解数值提示中模型出现的逻辑错误,提升推理的准确性和稳定性。

结论与展望

总结贡献

  • 本文提出的APC框架通过模拟人类心理意象机制,实现了VLM的视角感知能力突破,支持任意参考视角的空间推理。该方法有效结合视觉基础模型和VLM的优势,通过抽象场景构建和视角转换,将allocentric推理转化为egocentric推理,显著提升多项空间推理任务的性能。实验验证了APC在合成及真实数据集上的优越性和鲁棒性,展示了其广泛的应用潜力。

局限性分析

  • 场景抽象依赖于视觉基础模型的准确性,深度估计、对象定位和方向估计的误差会影响最终推理效果。
  • 当前方法对复杂动态场景和大规模对象环境的适应性尚需进一步验证。
  • 数值提示存在逻辑推理错误的风险,视觉提示虽有效缓解但仍有提升空间。

方法展望

  • 未来可探索更精细的场景抽象技术,结合多模态传感器数据提升三维重建精度。
  • 结合强化学习或自监督学习,增强模型对视角转换的内在理解和泛化能力。
  • 扩展至动态场景和视频数据,实现连续视角切换和时空推理。
  • 探索与机器人导航、增强现实等实际应用的深度融合,推动VLM在真实环境中的智能交互能力。

DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs

2025-04-23|UIUC, Salesforce Research|🔺8

http://arxiv.org/abs/2504.17040v1​​
​​https://huggingface.co/papers/2504.17040​​
​​https://mikewangwzhl.github.io/dymu

研究背景与意义

多模态LLM统一嵌入学习;基于心理意象模拟的感知视角推理;动态视觉token压缩框架-AI.x社区

  1. 问题定义与现状概述视觉-语言模型(Vision-Language Models,VLMs)通过视觉编码器将图像转换为固定长度的视觉token序列,再与文本token结合进行多模态理解。然而,当前主流的视觉编码器(如ViT架构)为固定分辨率的图像生成固定数量的视觉token,不论图像内容复杂度如何,token数量均不变,导致计算资源浪费,尤其在处理简单图像时效率低下。
  2. 挑战点
  • 固定长度的视觉token导致计算资源与图像内容不匹配,简单图像无法减少计算负担。
  • 现有减少token数量的方法多为固定压缩比例,缺乏对图像复杂度的动态适应。
  • 训练自由(training-free)方法多忽视视觉编码器本身的token冗余,且在减少token时,保持下游任务性能是一大难题。
  1. 研究目标本文旨在提出一种训练自由的动态视觉token压缩框架DYMU(Dynamic Merging and Virtual Unmerging),根据图像复杂度动态调整视觉token数,既减少计算开销,又保持VLM性能,且适用于多种主流视觉编码器和语言模型架构。

研究方法与创新

多模态LLM统一嵌入学习;基于心理意象模拟的感知视角推理;动态视觉token压缩框架-AI.x社区

  1. 核心技术描述
  • 动态token合并(Dynamic Token Merging,DToMe)通过基于视觉token的相似度,采用层级双边匹配算法,动态合并冗余的视觉token。阈值由大规模图像数据统计获得,支持根据图像复杂度自适应调整token数量,避免固定压缩比例带来的性能损失。
  • 虚拟token解合(Virtual Token Unmerging,VTU)解决语言模型对固定长度视觉token序列的依赖。VTU通过稀疏矩阵映射和旋转位置编码(RoPE)线性特性,重构完整的视觉token序列的注意力矩阵,从而在不增加训练的前提下,保持语言模型对视觉信息的完整感知。
  1. 创新点详解
  • 内容感知的动态token压缩不同于传统固定长度token,DToMe根据图像内容复杂度动态调整token数,提升资源利用率。
  • 训练自由且兼容主流模型DYMU无需额外训练,直接应用于现有ViT视觉编码器和RoPE-based语言模型,方便快速部署。
  • 高效的虚拟token重构机制VTU利用矩阵稀疏性和RoPE旋转编码的数学性质,实现在减少token数的同时,准确模拟完整token序列的注意力机制,兼顾效率与性能。
  • 层级阈值统计方法采用大规模图像集统计,针对每个Transformer层计算合并阈值,确保动态合并的稳定性和泛化能力。
  1. 方法优势与理论基础
  • 计算复杂度降低通过减少视觉token数量,显著降低视觉编码器及后续自注意力层的计算开销,理论上计算量与token数线性相关,实践中实现近线性加速。
  • 性能保持与提升结合DToMe和VTU,DYMU在多种视觉任务中保持甚至超越固定长度token方法的性能,尤其在复杂图像上表现更优。
  • 理论严谨充分利用Transformer注意力机制的线性代数性质和RoPE旋转编码的数学结构,保证重构注意力矩阵的准确性和效率。

实验设计与结果分析

多模态LLM统一嵌入学习;基于心理意象模拟的感知视角推理;动态视觉token压缩框架-AI.x社区

多模态LLM统一嵌入学习;基于心理意象模拟的感知视角推理;动态视觉token压缩框架-AI.x社区

  1. 实验设置
  • 视觉编码器采用CLIP和SigLIP等主流ViT架构,语言模型包括Vicuna-7B和Qwen2。
  • 评测基准涵盖多模态理解和推理任务,如GQA、MMBench、MME、POPE、TextVQA、ScienceQA等,以及视频理解任务。
  • 采用大规模多样化图像数据集(如LLaVA指令调优数据集)统计合并阈值,保证方法泛化。
  • 对比对象涵盖固定长度压缩(如ToMe)和其他训练自由压缩方法。
  1. 结果表现
  • DYMU在减少视觉token数达32%-85%的同时,保持了97.7%-100.4%的平均性能,相较于固定长度压缩方法在复杂图像上有明显优势。
  • VTU显著提升了语言模型处理动态token序列的性能稳定性,消除了token数变化带来的性能波动。
  • 通过图像复杂度与token数的强相关性验证,DYMU能够根据图像内容智能分配token预算。
  • 在Any-Resolution模型(LLaVA-OneVision)和视频任务中,DYMU同样展现出良好的适配性和性能保持能力。
  • 不同阈值设定(低、中、高)实现了性能与计算资源的灵活权衡,满足多场景需求。
  1. 统计显著性与多场景表现
  • 通过多任务、多数据集验证,DYMU表现稳定,且对阈值估计数据集的选择不敏感,体现了方法的鲁棒性。
  • 结合背景移除、OCR、目标检测等视觉预处理工具,DYMU进一步降低token数,展示了良好的扩展性和灵活性。

结论与展望

  1. 研究贡献总结
  • 提出了首个训练自由、动态视觉token压缩框架DYMU,解决了视觉token固定长度带来的计算资源浪费问题。
  • 创新设计了动态token合并与虚拟token解合两大模块,实现了内容感知的token压缩与语言模型对变长token序列的高效处理。
  • 在多种视觉语言模型和任务上验证了DYMU的有效性和泛化能力,显著提升了计算效率且保持甚至提升了性能。
  • 通过大规模图像统计方法确定合并阈值,保证了动态合并的稳定性和实用性。
  1. 局限性分析
  • 对空间敏感的任务(如TextVQA和空间推理)性能仍有一定下降,提示token合并可能破坏部分细粒度空间信息。
  • 虚拟token解合虽然有效,但仍存在轻微的性能折损,未来可进一步优化重构精度。
  • 目前主要针对视觉token压缩,视频时间维度冗余尚未充分利用。
  1. 未来工作展望
  • 探索针对空间敏感任务的自适应token合并策略,提升细粒度空间信息保留能力。
  • 优化虚拟token解合算法,减少重构误差,进一步提升下游任务性能。
  • 扩展DYMU至视频时序token压缩,结合时空冗余,提升视频理解效率。
  • 结合更多视觉预处理和任务特定模块,实现更灵活的计算资源分配和性能优化。

综上,DYMU以其创新的动态视觉token合并与虚拟token解合技术,为视觉语言模型的高效推理提供了全新思路和实用方案,具有广泛的应用前景和研究价值。

本文转载自​AI研究前瞻​,作者:胡耀淇

已于2025-4-28 09:41:51修改
收藏
回复
举报
回复
相关推荐