多阶段的多模态RAG幻觉缓解方案:智能眼镜等实时交互场景比赛方案-MM-RAG 原创

发布于 2025-7-31 06:40
浏览
0收藏

VLMs 在多模态推理中虽表现强大,但在处理特定场景时易产生 “幻觉”,如:复杂场景适配问题:面对第一视角图像(如智能眼镜拍摄的实时画面)、长尾实体(罕见物体 / 概念)、多跳推理问题(需多步逻辑推导)时,模型易因知识不足或误判生成错误结论;知识时效性问题:模型依赖内部先验知识,对涉及时效性的内容(如实时事件、动态变化的信息)易输出过时答案。

多阶段的多模态RAG幻觉缓解方案:智能眼镜等实时交互场景比赛方案-MM-RAG-AI.x社区

比赛链接:https://www.aicrowd.com/challenges/meta-crag-mm-challenge-2025

方法

多阶段的多模态RAG幻觉缓解方案:智能眼镜等实时交互场景比赛方案-MM-RAG-AI.x社区

方法pipline

针对多模态RAG中幻觉问题设计了一个多阶段验证中心框架。该框架通过四个核心阶段的协同运作,实现“减少幻觉”与“保证信息量”的平衡,同时兼顾效率与可靠性。

1、轻量级查询路由

目标是通过预先判断查询是否需要外部知识,避免不必要的检索操作,减少 latency(延迟)并降低对模型先验知识的过度依赖。

方法:使用轻量级语言模型 LLaMA-3.2-1B-Instruct (选择小参数量模型(1B参数)而非大模型,在保证分类准确性的同时显著降低计算成本,确保单轮响应符合10秒限时要求)对输入查询进行分类,输出两个关键决策:

  1. 是否需要外部信息:判断查询是否可仅通过模型内部知识回答(如常识性问题“天空是什么颜色”),若无需外部信息则直接跳过检索阶段,减少无效计算。
  2. 是否需要实时信息:判断查询是否涉及时效性内容(如“今天的天气”),若需实时信息则优先触发web搜索API,避免依赖模型中过时的知识。

提示词:

多阶段的多模态RAG幻觉缓解方案:智能眼镜等实时交互场景比赛方案-MM-RAG-AI.x社区

2、查询感知检索

多阶段的多模态RAG幻觉缓解方案:智能眼镜等实时交互场景比赛方案-MM-RAG-AI.x社区

Query-Aware 检索模块

传统固定阈值检索易受数据分布影响(如部分场景下相似度整体偏低),而MAD动态阈值可自适应不同场景。基于查询语义动态优化检索结果,减少噪声信息干扰,构建高质量上下文。

  • 步骤1:检索词生成对于需要图像知识的查询,先通过BLIP-2(视觉语言模型)为候选图像生成简洁摘要(如“一张包含红色自行车和蓝色围栏的街道照片”)(提示词如下),再将图像摘要与原始查询融合,生成更精准的检索词(而非直接使用原始查询),提升检索与查询的语义匹配度。

多阶段的多模态RAG幻觉缓解方案:智能眼镜等实时交互场景比赛方案-MM-RAG-AI.x社区

  • 步骤2:动态重排序初始检索通过API返回Top-K相似结果后,引入MAD(中位数绝对偏差)动态阈值过滤异常值:

     a.计算所有检索结果与查询的相似度得分的中位数,再通过MAD公式(MAD = median(|x - median|))确定合理阈值范围,剔除得分远低于阈值的噪声样本。

     b.最终保留的结果按相似度排序,构建检索上下文(图像元数据+相关文本片段)。

3、双路径生成

目的是通过对比两种生成路径的一致性,初步验证答案可靠性,为后续验证提供依据。 提到单一路径生成易受检索噪声或模型偏见影响,双路径对比可暴露知识冲突(如检索上下文显示“自行车是红色”,但模型先验认为“常见自行车为黑色”),为验证阶段提供明确检查方向。

  1. RAG路径:基于检索上下文(图像+文本知识),使用LLaVA-1.5生成答案,强制模型优先依赖外部知识。
  2. 非RAG路径:仅使用模型内部先验知识(不输入检索上下文),同样通过LLaVA-1.5生成答案,作为对照基准。

最后对两条路径的输出进行语义一致性评分(使用 Sentence-BERT 计算余弦相似度),若相似度≥0.8则视为“初步一致”,否则标记为“潜在冲突”,需进入后续深度验证。

提示词:

多阶段的多模态RAG幻觉缓解方案:智能眼镜等实时交互场景比赛方案-MM-RAG-AI.x社区

4、验证与最终确定

CoV通过“整体-局部”两级验证,可有效识别细微错误(如混淆相似实体);而双阈值规则平衡了“准确性”与“可用性”,通过多层验证消除潜在幻觉,基于置信度动态决策最终输出,避免过度保守(滥用“不知道”)或过度自信(错误答案)。

  • 步骤1:Chain-of-Verification(CoV)验证采用两阶段验证逻辑:
  1. 整体检查:使用GPT-4o(强推理模型)作为验证器,检查答案是否符合事实准确性(与检索上下文一致)、逻辑自洽性(无内部矛盾)、完整性(覆盖查询关键点)。
  2. 子问题分解:若整体检查不通过,将原始查询分解为多个子问题(如“这张照片中自行车的颜色是什么?”→“照片中是否有自行车?”“自行车的颜色是红色吗?”),逐一验证子问题答案与检索上下文的匹配度,定位错误来源。
  • 步骤2:置信度阈值决策验证器输出每个答案的置信度分数(0-1.0),并设定双阈值规则:

        a.高置信度(≥1.0):直接输出RAG路径答案(此时一致性检查与CoV均通过)。

        b.中置信度(0.9-1.0):若双路径一致,输出RAG答案;若不一致,返回“部分信息:[可靠片段]”。

        c.低置信度(<0.9):返回“不知道”,避免幻觉输出。

提示词:

多阶段的多模态RAG幻觉缓解方案:智能眼镜等实时交互场景比赛方案-MM-RAG-AI.x社区

多阶段的多模态RAG幻觉缓解方案:智能眼镜等实时交互场景比赛方案-MM-RAG-AI.x社区

实验性能

多阶段的多模态RAG幻觉缓解方案:智能眼镜等实时交互场景比赛方案-MM-RAG-AI.x社区

参考文献:Multi-Stage Verification-Centric Framework for Mitigating Hallucination in Multi-Modal RAG,https://arxiv.org/pdf/2507.20136v1repo:https://github.com/Breezelled/KDD-Cup-2025-Meta-CRAG-MM

本文转载自​大模型自然语言处理​   作者:llmnlp

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-7-31 06:40:49修改
收藏
回复
举报
回复
相关推荐