断档领先16%,清华Tree-KG两步「长」出高质量知识图谱

发布于 2025-10-9 07:56
浏览
0收藏

为什么又要造一个新的 KG 框架?

断档领先16%,清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

传统方法痛点

Tree-KG 的对策

规则/监督系统:标注贵、迁移差

零标注,直接读教材

通用 LLM 抽取:结构混乱、难扩展

先搭“目录树”骨架,再迭代扩枝

快速演化领域:增量更新难

预设 6 种算子,新文献即插即合并

整体流程:两阶段“种树”

断档领先16%,清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

框架总览

阶段

输入

核心动作

输出

Phase-1 显式骨架

教材 PDF

目录解析 → 自底向上摘要 → 实体/关系抽取

树状层级图(章节-实体)

Phase-2 隐式扩展

骨架 + 新文献

6 大算子循环:卷积→聚合→嵌入→去重→连边→合并

完整 KG,可无限生长

断档领先16%,清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

Tree-KG 内部层次

(c) 聚合前 vs (d) 聚合后:黄色节点被收编,结构更清晰

关键技术拆解

1 树状层级图(Tree-like Hierarchical Graph)

  • 纵向边:教材目录天然的​​has_subsection / has_entity​
  • 横向边:LLM 预测的同层语义关联,如​​Coulomb_Law --obey--> Inverse_Square_Law​

2 上下文卷积(Conv)


把邻居节点的描述“卷”进来,一次迭代就能让实体嵌入更紧致(图3)。

断档领先16%,清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

同小节实体更紧凑

3 实体去重(Dedup)

  • 先用向量检索找 Top-20 候选
  • 再让 LLM 投票是否同一指称 → 并查集合并
  • 阈值 0.55 性价比最高(图4)

断档领先16%,清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

去重阈值曲线

4 连边预测(Pred)

score = 0.6·语义相似 + 0.3·共同邻居(AA) + 0.1·共同祖先(CA)两阶段贪心:先稀疏补连通,再密集补语义。

实验结果:全面吊打基线

表1 物理领域 Ground-truth 评价(F1 ↑)

断档领先16%,清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

  • F1 领先 12–16%(GraphRAG、iText2KG、Langchain、AutoKG)
  • 结构一致性 MEC 最高,MED 最低
  • 成本仅 18 RMB(表3),比 LangChain 便宜 36%

表3  Token & 成本对比

断档领先16%,清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

消融实验:每一步都有用

表4 摘要的重要性

断档领先16%,清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

表5 卷积步数

断档领先16%,清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

可视化:Tree-KG 长这样

只有 Tree-KG 把“知识图谱”真的做成了“教科书”该有的样子——有目录、有层次、不重复。

断档领先16%,清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

蓝色=章节,红色=核心实体,黄色=非核心实体

https://aclanthology.org/2025.acl-long.907.pdf
Tree-KG: An Expandable Knowledge Graph Construction Framework forKnowledge-intensive Domains
https://github.com/thu-pacman/Tree-KG

本文转载自PaperAgent

已于2025-10-9 07:56:45修改
收藏
回复
举报
回复
相关推荐