NeurIPS 2025 ｜给⼤模型“装上先验”的可信推理：DP 框架让知识图谱上的问答更准更稳

发布于 2025-10-13 07:06

浏览

0收藏

导语

当我们用大模型回答复杂问题时，最怕两件事：一本正经地“胡说八道”，以及答非所问。原因往往并不在模型“不会”，而是训练语料里知识缺失或过时、推理路径不可靠。来自西安交通大学等机构的团队提出了一个简单而有效的思路：把知识图谱里本来就存在的“先验”用起来，用结构先验提升推理“忠实度”，用约束先验提升答案“可靠性”。他们把这套方法命名为 Deliberation on Priors（DP），论文已上线 arXiv，代码也已开源。

论文地址：https://arxiv.org/abs/2505.15210

代码地址：https://github.com/reml-group/Deliberation-on-Priors

这项工作关注一个具体但常被忽略的事实：知识图谱不仅有三元组事实，更蕴含两类关键先验知识。第一类是结构先验，比如从问题中的主题实体到答案实体的关系路径，这些路径能够教会模型“怎么在图上走”；第二类是约束先验，比如答案的类型限制、是否涉及多实体、是否有显式或隐式时间要求、是否包含排序规则，这些都能帮助模型在生成前后自查自证，避免“貌似有理”的错误。

方法

DP 的整体流程分为离线和在线两个阶段：

NeurIPS 2025 ｜给⼤模型“装上先验”的可信推理：DP 框架让知识图谱上的问答更准更稳-AI.x社区

1. 离线阶段

团队先自动收集“问题→关系路径”的弱监督信号，不是只对齐一条“标准路径”，而是挖掘所有从话题实体到答案实体的最短可行路径，尽可能覆盖图上的合理推理轨迹。随后，使用监督微调让模型学会按问题生成关系路径；再用 Kahneman-Tversky Optimization（KTO）做偏好优化，通过有针对性的“坏样本”扰动（如截断路径、错配实体路径、删除关键关系）让模型在不平衡样本下也能更稳地偏好语义一致、结构忠实的路径。

2. 在线阶段

模型先基于问题为每个话题实体生成多条候选关系路径，再在图上实例化得到具体的“推理路径”。与以往方法直接据此作答不同，DP 会先进行“自省”——从问题中抽取约束，再验证当前推理路径是否满足这些约束；若不满足，就把“违反了什么约束”的反馈喂回，触发回溯，重新选择路径并实例化，如此迭代，直到找到满足约束的路径再给出答案。这一步等于把“先验规则”变成了推理中的刹车与方向盘。

实验结果

这套方法的实验结果相当亮眼，如下图所示。团队在 WebQSP、CWQ 和 MetaQA 三个多跳知识图谱问答基准上进行评测，报告了 Hit、Hits@1 和 F1 三项指标，并强调了严格区分 Hit 与 Hits@1 的评估口径。DP 在多个数据集上刷新了最新结果，尤其在 CWQ 上 Hits@1 提升达到13.0%。更重要的是，DP 以更少的大模型交互与更低的 token 消耗成本达成了更高的可靠性，说明把“先验”系统性纳入推理流程，确实能减少无效探索与错误路径带来的干扰。

NeurIPS 2025 ｜给⼤模型“装上先验”的可信推理：DP 框架让知识图谱上的问答更准更稳-AI.x社区

技术细节与消融

从技术细节看，DP 的两大抓手各司其职：一方面，渐进式知识蒸馏通过“一对多”的弱监督路径收集，并配合 KTO 偏好优化，让模型在生成关系路径时更“贴图”，显著提升路径生成的忠实度。消融结果显示，去掉 KTO 后 WebQSP 与 CWQ 的 Hits@1 分别下降约 2.0% 与 1.2%，说明偏好对齐对稳健的路径规划至关重要。另一方面，“推理—自省”把类型、多实体、显式时间、隐式时间、序关系等五类通用约束转化为对候选路径的验真与回溯触发器，显著提升最终答案的可靠性；去掉自省环节，性能下滑最为明显。需要说明的是，在当前实现下，用模型自动归纳约束替代通用约束库，指标仍有小幅回落，这更多反映了自动归纳技术的成熟度尚需提升；长期目标仍是以自动归纳为主，在可控性与可验证性保障下尽量减少人工预定义。

NeurIPS 2025 ｜给⼤模型“装上先验”的可信推理：DP 框架让知识图谱上的问答更准更稳-AI.x社区

为评估“自省—回溯”的工程开销与实际收益，团队对测试阶段的回溯触发进行了统计：当检测到约束违背时，系统会迭代重做路径选择、实例化与自省。整体来看，如下图所示，回溯触发频率较低、额外交互成本可控；同时，指令遵循能力更强的模型（GPT-4.1）往往因更严格的约束核查而更容易触发必要回溯，这一现象与整体性能提升的趋势相吻合，也侧面印证了“可靠回溯”机制对推理质量的正向作用。

NeurIPS 2025 ｜给⼤模型“装上先验”的可信推理：DP 框架让知识图谱上的问答更准更稳-AI.x社区

应用价值与局限

为什么这件事值得关心？首先，它把“知识图谱的价值”从检索增强，进一步推进到了“推理增强”。过去我们更关注把对的三元组取出来交给模型，如今 DP 证明了结构与约束先验同样是强信号。其次，它让“可信”不仅停留在输出事实的对错，还体现在过程可检验、错误可回溯的机制设计上，这对医疗、法律等高风险场景尤为重要。最后，它在工程上是务实的：路径生成做离线蒸馏，在线阶段的交互次数和 token 成本更低，更接近真实系统落地的成本预期。

NeurIPS 2025 ｜给⼤模型“装上先验”的可信推理：DP 框架让知识图谱上的问答更准更稳-AI.x社区