DrKGC:突破传统知识图谱补全,动态子图检索与大模型的创新融合

发布于 2025-7-3 07:22
浏览
0收藏


DrKGC:突破传统知识图谱补全,动态子图检索与大模型的创新融合-AI.x社区图片

摘要

知识图谱补全(KGC)旨在通过利用现有的三元组和文本信息来预测知识图谱(KGs)中的缺失三元组。最近,生成式大型语言模型(LLMs)越来越多地被用于图任务。然而,当前方法通常以文本形式编码图上下文,这未能充分利用LLMs在感知和推理图结构方面的潜力。为了解决这一限制,我们提出了DrKGC(动态子图检索增强的知识图谱补全大型语言模型)。DrKGC采用一种灵活轻量级的模型训练策略,在KG内学习结构嵌入和逻辑规则。然后,它利用一种新颖的自下而上的图检索方法,根据学到的规则提取每个查询的子图。最后,一个图卷积网络(GCN)适配器使用检索到的子图来增强结构嵌入,然后将其整合到提示中,以实现有效的LLM微调。在两个通用领域基准数据集和两个生物医学数据集上的实验结果表明DrKGC的性能优越。此外,在生物医学领域的现实案例研究突出了其可解释性和实用价值。

核心速览

研究背景

  1. 研究问题:这篇文章要解决的问题是如何在知识图谱(KGs)中完成缺失的三元组预测。具体来说,现有的方法通常将图上下文编码为文本形式,这限制了大型语言模型(LLMs)在感知和推理图结构方面的潜力。
  2. 研究难点:该问题的研究难点包括:结构信息丢失、静态嵌入限制以及通用响应问题。生成式方法往往无法保留知识图谱中的丰富结构信息,静态嵌入无法适应查询特定的上下文或动态子图结构,而缺乏额外约束的LLMs容易生成通用且不相关的预测。
  3. 相关工作:该问题的研究相关工作有基于结构的方法(如TransE、DistMult)、基于规则的方法(如Neural-LP)、基于文本的方法(如KG-BERT)以及生成式方法(如KICGPT、KoPA)。这些方法在不同程度上解决了知识图谱补全的问题,但仍存在各自的局限性。

研究方法

这篇论文提出了DrKGC(Dynamic Subgraph Retrieval-Augmented LLMs for Knowledge Graph Completion)用于解决知识图谱补全问题。具体来说,

  1. 问题生成器:首先,使用自动生成的模板词汇表将不完整的三元组转换为自然语言问题。模板生成分为两个阶段:模板生成和问题生成。模板生成使用GPT的少样本上下文学习生成问题模板,问题生成则将查询关系映射到相应的问题模板并插入查询实体。DrKGC:突破传统知识图谱补全,动态子图检索与大模型的创新融合-AI.x社区
  2. 候选者检索器:为了减轻搜索空间过大、LLM输入容量有限以及LLMs生成通用响应的趋势,使用轻量级模型获取实体排名,并收集候选实体。轻量级模型训练不仅获取实体的结构嵌入,还学习关系的逻辑规则,以指导后续的子图检索。
  3. 动态子图RAG:提出了一种动态子图RAG策略,包括动态子图检索和结构感知嵌入增强。动态子图检索通过检索信息子图来增强图上下文,确保查询实体和所有候选实体都在子图中,并使用逻辑规则丰富子图。结构感知嵌入增强利用子图的结构信息向量化图上下文,并通过图卷积网络(GCN)适配器生成局部嵌入。DrKGC:突破传统知识图谱补全,动态子图检索与大模型的创新融合-AI.x社区

公式解释:

  • 动态子图检索过程中,确保查询实体和所有候选实体都在子图中,并检索连接每个候选实体到查询实体的最短路径,按逻辑规则的置信度分数排序,直到达到预设的阈值τ。
  • 结构感知嵌入增强中,GCN适配器通过邻域聚合机制更新节点的表示,生成局部嵌入,并与全局嵌入拼接形成最终的增强结构嵌入。

实验设计

  1. 数据集:在两个通用领域基准数据集(WN18RR和FB15k-237)和两个生物医学数据集(PharmKG和PrimeKG)上评估所提出的方法。数据集的统计细节和预处理过程在附录中提供。
  2. 基线方法:选择了多类别的基线方法进行比较,包括基于结构的方法(如TransE、DistMult)、基于规则的方法(如Neural-LP)、基于文本的方法(如KG-BERT)以及生成式方法(如KICGPT、COSIGN)。
  3. 实现细节:在轻量级模型训练阶段,使用NCRL挖掘逻辑规则,并使用RotatE和HRGAT分别获取WN18RR和FB15k-237的全局结构嵌入,PharmKG和PrimeKG则直接使用HRGAT和R-GCN进行排名。候选集大小固定为20。微调阶段使用了Llama-3-8B、Llama-3.2-3B、MedLlama-3-8B和Mistral-7B作为LLMs,并使用LoRA进行高效的参数调优。

结果与分析

  1. 主要结果:DrKGC在WN18RR、FB15k-237、PharmKG和PrimeKG上的表现均优于大多数基线方法。在WN18RR上,尽管在Hits@10上略逊于NCRL和GHN,但在所有评估指标上均优于所有生成式方法。在FB15k-237上,DrKGC在所有指标上均优于基线,MRR提高了7.5%,Hits@1提高了11.4%。在PharmKG和PrimeKG上,DrKGC也表现出色,显著优于所有基线。DrKGC:突破传统知识图谱补全,动态子图检索与大模型的创新融合-AI.x社区
  2. 消融研究:通过消融研究评估了DrKGC中每个组件的贡献。移除规则限制、局部嵌入和结构嵌入后,模型性能显著下降,表明这些组件对模型性能至关重要。省略问题模板对生物医学数据集的影响更大,表明关系的功能性和机制性对LLM的指令更为重要。DrKGC:突破传统知识图谱补全,动态子图检索与大模型的创新融合-AI.x社区
  3. 鲁棒性分析:在WN18RR上进行归纳预测和噪声条件下的鲁棒性评估。归纳设置下,模型性能仅略有下降;注入20%的噪声后,MRR和Hits@1的下降幅度有限,分别为7.9%和7.6%,表明DrKGC具有较好的鲁棒性。
  4. 子图大小敏感性分析:在不同子图大小τ下的模型性能和效率进行了分析。结果表明,当τ增加时,模型性能先提高后下降,最佳结果为τ=100125,运行时间与τ线性增长。

总体结论

本文提出了一种新的知识图谱补全框架DrKGC,充分利用图上下文信息,灵活集成动态子图信息聚合、嵌入注入和RAG机制,克服了先前生成式方法在结构信息丢失、静态实体表示和通用LLM响应方面的局限性。实验结果表明,DrKGC在通用知识图谱和特定领域知识图谱(如生物医学知识图谱)上均取得了最先进的性能。通过捕捉图上下文生成信息性子图,DrKGC还增强了模型的可解释性,这在生物医学应用中尤为有价值。

论文评价

优点与创新

  1. 新颖的框架:DrKGC提出了一个新颖且灵活的框架,能够有效地支持通用知识图谱和特定领域的生物医学知识图谱(BKG)。
  2. 结构信息整合:开发了两个关键组件来有效整合图结构信息到生成模型中。具体来说,扩展了标准的检索增强生成方法到图场景,利用逻辑规则获取表示潜在兴趣实体的局部子图。然后,开发了一种技术,将图卷积网络应用于检索到的子图,以进一步生成实体的局部嵌入,有效地为基于LLM的预测提供结构信息。
  3. 实验验证:在基准数据集和生物医学用例上进行了全面的实验,评估了DrKGC的性能,并展示了其相对于最先进基线方法的显著改进。此外,还进行了药物再利用的生物医学案例研究,展示了DrKGC的实际应用能力。
  4. 增强模型解释性:通过捕捉图上下文生成信息性子图,DrKGC还增强了模型的可解释性,这在生物医学应用中尤其有价值。

不足与反思

  1. 计算密集:DrKGC依赖于微调大型语言模型,这一过程计算密集,其性能本质上受限于当前LLM和轻量级模型的能力。
  2. 优化微调效率:未来工作将集中在优化微调效率、提升LLM性能以及探索扩展到其他图任务(如推理和问答)上。
  3. 更复杂的子图检索:检索更具信息性的子图可能会带来额外的挑战。虽然本文采用了轻量级的启发式图检索方法,但更严格的基于规则的检测和过滤技术以及替代的子图策略(如学习驱动的子图检索)值得进一步研究。

关键问题及回答

问题1:DrKGC在动态子图检索过程中是如何确保查询实体和所有候选实体都在子图中的?

在动态子图检索过程中,DrKGC首先确保查询实体和所有候选实体都在子图中。具体步骤如下:

  1. 初始化子图:确保查询实体tq在子图G中。
  2. 检索最短路径对于每个候选实体e∈C,检索从etq的最短路径,以确保它们之间的连通性。
  3. 排序逻辑规则:按照逻辑规则Lrq的置信度分数对路径进行排序,并依次使用这些规则来搜索从etq的路径,从而丰富子图。
  4. 达到预设阈值:重复上述步骤直到子图中的三元组数量达到预设的阈值τ。
  5. 补充额外三元组:如果子图中的三元组数量仍低于τ,则通过rq及其逻辑规则补充与etq相关的额外三元组。

问题2:DrKGC的结构感知嵌入增强是如何利用子图的结构信息来增强整体结构表示的?

  1. 初始化GCN:对于每个查询子图,GCN适配器首先使用所有实体的全局嵌入进行初始化。
  2. 邻域聚合:通过邻域聚合机制更新节点的表示,生成局部嵌入。具体来说,GCN适配器通过聚合当前节点的邻居节点的信息来更新当前节点的嵌入。
  3. 拼接嵌入:将生成的局部嵌入与全局嵌入拼接,形成最终的增强结构嵌入。
  4. 低维空间计算:为了减少计算开销,GCN计算在低维空间中进行,然后通过适配器将结果映射到LLM输入维度,实现无缝集成。

通过这种方式,DrKGC能够有效地利用子图的结构信息来增强整体结构表示,从而提高模型在知识图谱补全任务中的性能。

问题3:DrKGC在实验中是如何验证其鲁棒性的?

  1. 归纳预测:在WN18RR上进行归纳预测实验,提取所有测试三元组中实体或关系从未出现在训练集中的情况,测量DrKGC在这些未见过的实体情况下的性能。
  2. 噪声条件:在训练集中注入固定比例的无随机负三元组,评估这对DrKGC指标的影响。具体来说,将训练集中的20%三元组替换为随机负三元组,然后重新评估模型的性能。

实验结果表明,在归纳设置下,DrKGC的性能仅略有下降,MRR下降了5.4%,Hits@1下降了6.7%;即使在注入20%噪声的情况下,MRR和Hits@1的下降幅度也有限,分别为7.9%和7.6%。这表明DrKGC在处理未见过的实体和噪声条件时具有较高的鲁棒性。

本文转载自​​​知识图谱科技​​​,作者:知识图谱科技

收藏
回复
举报
回复
相关推荐