
NeurIPS 2025 | 给⼤模型“装上先验”的可信推理:DP 框架让知识图谱上的问答更准更稳
导语
当我们用大模型回答复杂问题时,最怕两件事:一本正经地“胡说八道”,以及答非所问。原因往往并不在模型“不会”,而是训练语料里知识缺失或过时、推理路径不可靠。来自西安交通大学等机构的团队提出了一个简单而有效的思路:把知识图谱里本来就存在的“先验”用起来,用结构先验提升推理“忠实度”,用约束先验提升答案“可靠性”。他们把这套方法命名为 Deliberation on Priors(DP),论文已上线 arXiv,代码也已开源。
论文地址:https://arxiv.org/abs/2505.15210
代码地址:https://github.com/reml-group/Deliberation-on-Priors
这项工作关注一个具体但常被忽略的事实:知识图谱不仅有三元组事实,更蕴含两类关键先验知识。第一类是结构先验,比如从问题中的主题实体到答案实体的关系路径,这些路径能够教会模型“怎么在图上走”;第二类是约束先验,比如答案的类型限制、是否涉及多实体、是否有显式或隐式时间要求、是否包含排序规则,这些都能帮助模型在生成前后自查自证,避免“貌似有理”的错误。
方法
DP 的整体流程分为离线和在线两个阶段:
1. 离线阶段
团队先自动收集“问题→关系路径”的弱监督信号,不是只对齐一条“标准路径”,而是挖掘所有从话题实体到答案实体的最短可行路径,尽可能覆盖图上的合理推理轨迹。随后,使用监督微调让模型学会按问题生成关系路径;再用 Kahneman-Tversky Optimization(KTO)做偏好优化,通过有针对性的“坏样本”扰动(如截断路径、错配实体路径、删除关键关系)让模型在不平衡样本下也能更稳地偏好语义一致、结构忠实的路径。
2. 在线阶段
模型先基于问题为每个话题实体生成多条候选关系路径,再在图上实例化得到具体的“推理路径”。与以往方法直接据此作答不同,DP 会先进行“自省”——从问题中抽取约束,再验证当前推理路径是否满足这些约束;若不满足,就把“违反了什么约束”的反馈喂回,触发回溯,重新选择路径并实例化,如此迭代,直到找到满足约束的路径再给出答案。这一步等于把“先验规则”变成了推理中的刹车与方向盘。
实验结果
这套方法的实验结果相当亮眼,如下图所示。团队在 WebQSP、CWQ 和 MetaQA 三个多跳知识图谱问答基准上进行评测,报告了 Hit、Hits@1 和 F1 三项指标,并强调了严格区分 Hit 与 Hits@1 的评估口径。DP 在多个数据集上刷新了最新结果,尤其在 CWQ 上 Hits@1 提升达到13.0%。更重要的是,DP 以更少的大模型交互与更低的 token 消耗成本达成了更高的可靠性,说明把“先验”系统性纳入推理流程,确实能减少无效探索与错误路径带来的干扰。
技术细节与消融
从技术细节看,DP 的两大抓手各司其职:一方面,渐进式知识蒸馏通过“一对多”的弱监督路径收集,并配合 KTO 偏好优化,让模型在生成关系路径时更“贴图”,显著提升路径生成的忠实度。消融结果显示,去掉 KTO 后 WebQSP 与 CWQ 的 Hits@1 分别下降约 2.0% 与 1.2%,说明偏好对齐对稳健的路径规划至关重要。另一方面,“推理—自省”把类型、多实体、显式时间、隐式时间、序关系等五类通用约束转化为对候选路径的验真与回溯触发器,显著提升最终答案的可靠性;去掉自省环节,性能下滑最为明显。需要说明的是,在当前实现下,用模型自动归纳约束替代通用约束库,指标仍有小幅回落,这更多反映了自动归纳技术的成熟度尚需提升;长期目标仍是以自动归纳为主,在可控性与可验证性保障下尽量减少人工预定义。
为评估“自省—回溯”的工程开销与实际收益,团队对测试阶段的回溯触发进行了统计:当检测到约束违背时,系统会迭代重做路径选择、实例化与自省。整体来看,如下图所示,回溯触发频率较低、额外交互成本可控;同时,指令遵循能力更强的模型(GPT-4.1)往往因更严格的约束核查而更容易触发必要回溯,这一现象与整体性能提升的趋势相吻合,也侧面印证了“可靠回溯”机制对推理质量的正向作用。
应用价值与局限
为什么这件事值得关心?首先,它把“知识图谱的价值”从检索增强,进一步推进到了“推理增强”。过去我们更关注把对的三元组取出来交给模型,如今 DP 证明了结构与约束先验同样是强信号。其次,它让“可信”不仅停留在输出事实的对错,还体现在过程可检验、错误可回溯的机制设计上,这对医疗、法律等高风险场景尤为重要。最后,它在工程上是务实的:路径生成做离线蒸馏,在线阶段的交互次数和 token 成本更低,更接近真实系统落地的成本预期。
对于研究者与开发者而言,DP 也提供了一个清晰的集成模板:保留现有的检索与问答 pipeline,在前置阶段加入“路径规划”的训练与推理,在后置阶段用“约束自省—反馈回溯”把关答案。若迁移到垂直领域,只需把领域内常见的类型、时间、排序、多实体等约束做成“先验库”,即可低成本复用整套方法。
论文也坦诚指出了局限:在跨领域时,约束条件集合仍需要人工梳理与适配,后续工作将探索自动归纳与总结约束类型的途径,以进一步降低门槛。
案例
最后,以一个实际问题为例,展示 DP 如何利用生成的候选关系路径、用约束自省触发必要回溯,并在可控成本下产出可解释的可靠答案:
如果你正在关注“如何让大模型少犯错、敢解释、可回溯”,DP 是一篇值得细读与上手复现的工作。
论文链接:https://arxiv.org/abs/2505.15210
开源代码:https://github.com/reml-group/Deliberation-on-Priors。
本文转载自知识图谱科技,作者:KGGPT
