
回复
现有文档 RAG 评测都在不足:数据太小、查询太假、证据太单一。
说到多模态大模型,国内快手也开源了Keye-VL-1.5-8B(国产大模型越来越好,就在昨天Claude点名全面封禁中国公司,离大谱),可本地部署,大家可以试试!
不管RAG到Multi-RAG未来的趋势还是Agentic RAG,PaperAgent也准备了实操指南:从Agent到Flow Agent,动手搭建自己的AI助理智能体
图 2:主流 benchmark 查询示例,信息不足或已提前泄露答案。
问题 | 典型案例 | 后果 |
① 评测面过窄 | 只测 embedding 或只测 VQA | 看不到系统级瓶颈 |
② 假设用户开卷 | 直接给出目标页、文件名 | 与现实检索场景脱节 |
③ 证据唯一幻觉 | 单页 synthetic query | 忽略多页均可回答 |
④ 多跳造假 | 把单跳硬拼成“伪多跳” | 高估模型推理能力 |
维度 | 规模 | 备注 |
文档 | 3 276 份 | 72 880 页 |
语言 | 6 种 | 中/英/西/法/日/阿 |
类型 | 4 类 | PDF、扫描件、幻灯、HTML |
查询 | 5 168 条 | 2 500 单跳 + 2 668 多跳(2-3 跳) |
证据 | 100 % 人工复核 | 单跳 set-of-evidence,多跳 chain-of-evidence |
图 4:语料与语言分布,外圈为语言占比。
图 3:DOUBLE-BENCH 构建流水线,红框为人工介入环节。
1️⃣ 元数据收集与清洗
2️⃣单跳查询合成
3️⃣多跳查询合成
表 3:主流 embedding 在 DOUBLE-BENCH 上的细粒度结果。
表 4:RAG 框架检索与回答准确率对比。
表 5:MLLM 在“裸跑”与“开卷”下的准确率。
https://arxiv.org/pdf/2508.03644
Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?
本文转载自PaperAgent