多模态混合RAG;VLM开发数据集清晰,高质量数据基础;偏好指导视觉优化;LLM内部信号和监督信号的平衡
Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation
2025-10-20|RUC, RUC|🔺28
http://arxiv.org/abs/2510.17354v1
https://huggingface.co/papers/2510.17354
https://github.com/SnowNation101/Nyx
研究背景与意义

- 问题定义与现状
近年来,检索增强生成(Retrieval-Augmented Generation, RAG)成为提升大型语言模型(LLMs)能力的重要方法,主要通过从外部语料库检索相关文档来补充模型知识。然而,现有RAG系统多聚焦于单一文本模态,忽略了现实场景中查询和文档可能包含的多模态混合内容(文本与图像交织)。这导致检索效果和下游生成质量受限。
- 挑战与目标
面对复杂多样的混合模态信息,传统分模态处理或跨模态检索方法难以捕捉图文之间的空间和逻辑关联,难以支持精细推理。本文提出“通用检索增强生成”(Universal Retrieval-Augmented Generation, URAG)问题,旨在设计一个统一的混合模态检索器,能够处理任意交错的文本与图像组合,显著提升视觉语言任务中的生成质量。
- 意义
解决URAG问题不仅推动多模态信息检索技术发展,也为视觉语言模型提供更丰富、更准确的外部知识支持,促进多模态人工智能系统的实用化和智能化。
研究方法与创新


- 数据集构建创新
针对现实网络文档中复杂混合模态结构,作者设计了四阶段自动化数据生成与过滤流水线,从大规模真实网页中采样、利用视觉语言模型(VLM)自动生成高质量的问答对,经过多轮后处理和困难负样本挖掘,构建了包含多样交织文本与图像的NyxQA数据集。该数据集真实反映URAG应用场景,填补了混合模态检索训练数据的空白。
- 统一混合模态检索器设计
基于预训练的视觉语言模型Qwen-2.5-VL-3B-Instruct,构建Nyx检索器,采用Matryoshka表示学习(MRL)技术,实现对不同维度的嵌入截断仍保持信息完整性,支持灵活的性能与效率权衡。该检索器统一编码查询和文档中的任意文本、图像及其混合序列,突破传统分模态或单一模态检索的限制。
- 两阶段训练框架
- 预训练阶段:利用NyxQA及多种公开合成数据进行对比学习,提升检索器的通用多模态检索能力。
- 反馈微调阶段:引入下游视觉语言模型生成的反馈,采用滑动窗口策略构造上下文,结合生成质量指标(如EM、F1),对检索器进行有监督微调,使其检索结果更贴合生成模型的信息需求,实现检索与生成的深度协同。
4.技术优势与理论基础
结合对比学习和MRL,Nyx检索器在保持高维语义表达能力的同时,支持多层次嵌入表达,提升了检索的准确性和效率。反馈驱动的微调策略确保检索结果与生成任务目标高度一致,显著提升了视觉语言生成的效果。
实验设计与结果分析




- 实验设置
实验覆盖文本单模态与多模态数据集,包括HotpotQA、MuSiQue、Bamboogle(文本)、MMQA、ScienceQA、NyxQA(多模态)。采用多种基线模型对比:E5-v2(文本检索基线)、CLIP、VLM2Vec、mmE5等多模态检索器,以及直接生成模型InternVL3-8B和Qwen2.5-VL-7B。
- 生成性能评估
Nyx检索器在所有数据集上均优于现有基线,尤其在混合模态NyxQA上,准确率提升显著(由74.83%提升至81.83%)。反馈微调阶段带来额外7个百分点的提升,验证了反馈驱动训练的有效性。Nyx在文本单模态任务也表现优异,显示出良好的泛化能力。
- 嵌入能力分析
在MMEB多任务基准测试中,Nyx在分类、视觉问答、检索和视觉定位任务上均优于大多数基线,且反馈微调后整体性能提升2.1%。说明Nyx不仅提升了检索性能,也增强了嵌入表达的质量和泛化能力。
- 数据规模与检索文档数影响
训练数据规模与URAG性能呈对数线性关系,数据量增加带来稳定提升。增加检索文档数量也显著提高生成质量,但边际效益递减。Nyx在不同文档数量下均优于基线,且反馈微调使其在少文档场景下表现更稳健。
- 生成模型泛化性
Nyx检索器虽以Qwen2.5-VL-7B为反馈源训练,但在不同规模的InternVL3模型上均表现出色,表明其训练策略具有良好的跨模型适应性。
结论与展望
- 主要贡献总结
本文首次系统提出并解决了通用检索增强生成(URAG)问题,设计了统一的混合模态检索器Nyx,构建了真实多样的NyxQA数据集,提出了结合对比学习与生成模型反馈的两阶段训练框架。实验结果充分证明Nyx在多模态检索和视觉语言生成任务中的领先性能及良好泛化能力。
- 方法局限
- 目前模型规模相对有限,可能影响对某些复杂任务的表现。
- 生成模型反馈依赖于特定模型,尽管已验证一定泛化,但更广泛的适应性仍需进一步研究。
- 数据自动生成与过滤流程虽有效,但仍可能存在噪声和偏差,影响模型训练。
- 未来展望
- 扩展训练数据规模与多样性,进一步提升模型泛化能力。
- 探索更高效的多模态表示学习方法,优化模型计算效率。
- 深入研究检索与生成模型的联合训练策略,实现更紧密的协同优化。
- 拓展到更多实际应用场景,如多模态对话、跨媒体内容理解等,推动多模态人工智能技术的实用化。
综上,本文为混合模态检索与生成领域提供了创新性理论与实践框架,具有重要的学术价值和应用潜力。
FineVision: Open Data Is All You Need
2025-10-20|HuggingFace, TUM, Stanford|🔺24
http://arxiv.org/abs/2510.17269v1
https://huggingface.co/papers/2510.17269
研究背景与意义

- 视觉语言模型(VLM)近年来取得显著进展,但受限于公开多模态数据集的碎片化、质量不一和数据污染问题。
- 现有开源数据集规模小且分散,导致模型性能与闭源模型存在差距,限制了开源社区在数据驱动研究上的能力。
- 以往数据集多为简单聚合,缺乏系统化的清洗、去重和去污染流程,难以满足新兴任务如GUI交互的需求。
- 本文提出FineVision,一个集成了24M样本、185个子集、覆盖17M图像和89M对话轮次的超大规模公开数据集,旨在为VLM训练提供高质量、多样化和可复现的数据基础。
研究方法与创新


- 数据集构建流程:采用半自动化、人类监督的流水线,将200+公开数据源统一转换为标准对话格式,结合自动化批量导入与人工审核,确保注释的准确性和多样性。
- 统一对话模式:通过多模板策略将异构标注(图像问答、图像描述、空间关系、文档理解、OCR、分类检测等)转化为多轮对话,提升模型对复杂任务的适应能力。
- GUI动作空间统一:针对不同GUI数据源动作定义不一致的问题,设计统一的动作解析和转换模块,实现跨平台、跨任务的动作模式一致性,支持模型学习通用的界面交互能力。
- 数据清洗与去重:结合自监督复制检测(SSCD)和余弦相似度,严格剔除内部及跨数据集的近似重复样本,并对66个公开基准进行训练集去污染,显著降低训练-测试集泄露风险。
- 质量控制机制:引入LLM/VLM作为质量评判者,从格式、相关性、视觉依赖性和图像-问题对应度四个维度对对话轮次进行评分,确保数据质量均衡且覆盖多样任务特性。
- 创新点总结:FineVision不仅规模领先,还在数据多样性、质量控制和任务覆盖(尤其是GUI任务)上实现突破,构建了一个更均衡、全面且适应未来视觉语言研究需求的数据平台。
实验设计与结果分析




- 实验设置:使用460M参数SmolVLM模型,单阶段训练20K步,批量大小512,覆盖FineVision全量数据一轮,基线对比包括Cauldron、Cambrian-7M和LLaVA-OneVision。
- 性能对比:FineVision训练模型在11个多样化评测基准上表现最优,训练后期领先其他模型12.7个百分点(对Cauldron)、5.1个百分点(对Cambrian-7M)、14.3个百分点(对LLaVA-OneVision),表现出更强泛化能力。
- 去污染影响:FineVision数据集污染率仅1.02%,远低于基线2.15%-3.05%;去污染后性能下降仅1.6个百分点,基线下降2.7%-3.7个百分点,验证FineVision的优势非因数据泄露。
- GUI任务能力:FineVision包含丰富GUI/agentic数据,训练模型在Screenspot-V2和Screenspot-Pro基准中表现优异,微调后性能可媲美4倍参数规模的同架构模型,展示了新兴交互能力的显著提升。
- 数据多样性分析:FineVision在视觉概念广度(有效秩)和均衡度(参与比率)上均优于其他数据集,保证模型接受广泛且均衡的视觉知识输入。
结论与展望
- FineVision通过系统化的半自动化与人工质量控制流程,成功整合并净化了超过200个公开数据源,构建了迄今最大且质量领先的公开视觉语言训练语料。
- 该数据集显著提升了开源视觉语言模型的性能和泛化能力,尤其在新兴的GUI交互任务中展现出强大潜力。
- 发布了数据集、转换脚本、去重工具及预计算嵌入,推动视觉语言领域的数据中心研究和开放创新。
- 局限性包括残留数据重叠、多文档长上下文推理能力仍待提升,以及GUI任务评测体系尚不完善。
- 未来工作将聚焦视频数据、多语言支持、长上下文推理和更严格的安全审计,持续缩小开源与闭源模型间的差距,促进视觉语言模型的广泛应用和发展。
RL makes MLLMs see better than SFT
2025-10-18|KAIST, NAVER|🔺18
http://arxiv.org/abs/2510.16333v1
https://huggingface.co/papers/2510.16333
https://june-page.github.io/pivot/
研究背景与意义

- 多模态大型语言模型(MLLM)性能长期被认为主要依赖于其大型语言模型(LLM)骨干,导致视觉编码器的作用被忽视,尤其是其对图像感知能力的影响缺乏深入理解。
- 近年来,MLLM训练范式从传统的监督微调(SFT)逐渐转向强化学习(RL),特别是基于人类偏好的直接偏好优化(DPO),但对这种转变如何重塑视觉编码器及模型整体表现的系统分析尚缺乏。
- 本文旨在填补这一空白,通过对比SFT与RL训练策略在多模态视觉问答(VQA)等任务上的表现,揭示RL对视觉编码器产生的深远影响,并提出一种高效提升视觉编码器能力的新方法——偏好指导视觉优化(PIVOT)。
研究方法与创新


- 训练策略对比分析:构建统一的训练框架,严格控制训练数据量,比较SFT与DPO两种后期训练方式对MLLM及其视觉编码器的影响,涵盖多种模型规模和视觉编码器架构。
- 视觉编码器深入剖析:通过ImageNet线性探针评测、语义分割探测和梯度可视化,揭示RL训练下视觉编码器产生更强、更局部化的视觉特征,提升细粒度视觉理解和定位能力。
- PIVOT训练范式提出:将RL训练过程重新定义为偏好指导视觉优化(PIVOT),将视觉编码器与LLM结合,利用DPO进行微调,极大提升视觉编码器表现,且训练成本低于传统视觉预训练1%。
- 多种视觉模型适用性验证:PIVOT适用于多种主流视觉编码器,包括CLIP、SigLIP、DINO、MAE等,均显著提升其在MLLM中的性能,表明该训练策略具有广泛的通用性和强大的提升潜力。
- 模型规模与训练数据影响分析:系统评估视觉编码器和语言模型规模对性能的影响,发现视觉编码器容量对视觉密集任务尤为关键,且DPO训练在数据扩展时表现更优。
实验设计与结果分析



- 多尺度模型实验:采用不同规模的Qwen2.5语言模型(0.5B至7B参数)和SigLIP视觉编码器(86M至1B参数),在16个视觉问答任务上评测SFT与DPO的表现。
- 性能对比:DPO在强视觉相关任务(OCR&Chart VQA、Vision-Centric VQA)上显著优于SFT,提升幅度达数个百分点,而在弱视觉相关任务(知识类VQA)上提升有限,体现了RL训练对视觉能力的特别增强作用。
- 视觉编码器独立评估:分离视觉编码器后,在ImageNet分类和ADE20K语义分割任务上,DPO训练的编码器表现优于SFT,且梯度可视化显示DPO能更准确聚焦于问题相关的图像区域,验证了其细粒度视觉特征学习能力。
- PIVOT效果:将PIVOT应用于多种视觉编码器后,显著提升MLLM在视觉问答任务上的综合表现,甚至使得较小或较旧的模型超过了参数更多、训练更复杂的最新模型,且训练资源消耗极低。
- 模型融合实验:结合PIVOT增强的视觉编码器与其他强大视觉模型,实现进一步性能提升,展现了PIVOT作为通用增强策略的潜力。
结论与展望
- 本研究首次系统比较了SFT与RL训练对MLLM及其视觉编码器的差异,证实RL(尤其是DPO)不仅提升语言模型对齐,也根本改善了视觉表示,增强视觉感知和定位能力。
- 提出的PIVOT训练范式为提升视觉编码器性能提供了高效路径,显著降低训练成本,同时提升多模态模型整体表现,为未来视觉模型设计与训练开辟新方向。
- 未来工作可进一步探索PIVOT在更多视觉任务和多模态融合场景中的应用,优化训练策略,推动MLLM视觉智能的持续进步。
Annotation-Efficient Universal Honesty Alignment
2025-10-20|ICT, CAS, UCAS|🔺17
http://arxiv.org/abs/2510.17509v1
https://huggingface.co/papers/2510.17509
https://github.com/Trustworthy-Information-Access/Annotation-Efficient-Universal-Honesty-Alignment
研究背景与意义

- 问题定义与现状
大型语言模型(LLMs)在实际应用中需具备“诚实对齐”能力,即准确识别自身知识边界并表达校准后的置信度,从而保障可信赖的部署。现有方法分为训练自由型(如基于token概率、自我一致性)和训练驱动型(基于正确性注释校准)两类。训练驱动型虽效果更优,但需大量昂贵的正确性标注,限制了其普适性和规模化。
- 挑战与目标
如何在注释资源有限的情况下实现普适且高效的诚实对齐,是当前的核心难题。论文提出的目标是设计一种注释高效的训练框架,使模型能在少量正确性注释下,实现接近最优的置信度校准,并具备跨任务的泛化能力。
研究方法与创新

- 技术描述提出Elicitation-Then-Calibration(EliCal)双阶段训练框架:1)置信度引导阶段:利用廉价的自我一致性信号训练模型表达内部置信度,构建大规模无标注置信度数据。2)置信度校准阶段:用小规模正确性注释微调模型,使表达的置信度与实际准确率对齐。
- 创新点
利用自我一致性作为内在置信度信号,突破了传统训练驱动方法对大量标注的依赖。
结合LoRA技术冻结主模型参数,仅微调轻量模块,保证了训练效率和原模型能力的稳定。
设计了“预训练-微调”式的双阶段学习策略,显著提升了注释效率和泛化能力。
- 优势与理论基础
a.自我一致性置信度与实际正确率高度相关,具备良好的学习基础。
b.通过先引导模型表达内在置信度,再用少量标注校准,避免了直接从零学习置信度表达的困难。
c.该方法理论上属于半监督学习范式,有效利用了大量无标注数据和少量标注数据的协同作用。
- 与现有方法对比
相较于仅依赖正确性注释的校准方法(Cal-Only),EliCal在标注数据极少时表现更优,且泛化到未见任务(如MMLU)时仍保持优势。训练自由方法虽无需标注,但置信度表达准确度不足。
实验设计与结果分析


- 实验设置
构建了HonestyBench大规模基准,涵盖10个免费问答数据集,含56万训练样本和7万评测样本,均带有正确性和自我一致性标注。
采用三种代表性开源LLM进行评测,指标包括AUROC(区分正确与错误回答的能力)和Alignment(置信度与正确性的匹配度)。
对比训练自由基线、仅引导(Eli-Only)、仅校准(Cal-Only)及EliCal方法。
- 关键结果
- EliCal使用仅1k正确性注释(约0.18%全监督数据)即可达到Cal-Only全部56万注释性能的98%,显著提升注释效率。
- 在所有训练自由和训练驱动方法中,EliCal在大多数数据集上表现最佳,尤其在OOD和MMLU任务中泛化能力优越。
- 置信度表达的准确性和可靠性显著增强,支持实际应用中基于置信度的决策(如是否调用检索增强)。
- 多场景表现
a.在内外域测试均表现稳健,证明了方法的普适性。
b.Ablation实验显示引导阶段数据规模越大,效果越好,且LoRA微调结构有效平衡了性能与训练成本。
结论与展望
- 总结贡献
本文提出的EliCal框架创新性地将模型内在置信度引导与少量标注校准结合,实现了注释高效、性能优异的诚实对齐。HonestyBench基准的构建为未来普适诚实对齐研究提供了重要资源和评测平台。
- 局限分析
目前主要聚焦于问答任务,其他类型任务的适用性尚待验证。
自我一致性信号虽有效,但仍可能受限于模型生成多样性和语义判定准确性。
LoRA微调虽轻量,但对超大模型的扩展性和实时性影响需进一步研究。
- 未来展望
探索更多自监督信号融合,进一步减少对人工标注的依赖。
扩展框架至多模态和不同任务类型,推动通用诚实对齐模型发展。
结合模型架构创新,提升置信度表达的准确性和解释性,增强用户信任。
推动诚实对齐技术在实际AI系统中的集成与应用,促进安全可靠的智能服务落地。
本文转载自AI研究前瞻,作者:胡耀淇

















