断档领先16%，清华Tree-KG两步「长」出高质量知识图谱

发布于 2025-10-9 07:56

浏览

0收藏

为什么又要造一个新的 KG 框架？

断档领先16%，清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

传统方法痛点	Tree-KG 的对策
规则/监督系统：标注贵、迁移差	零标注，直接读教材
通用 LLM 抽取：结构混乱、难扩展	先搭“目录树”骨架，再迭代扩枝
快速演化领域：增量更新难	预设 6 种算子，新文献即插即合并

整体流程：两阶段“种树”

断档领先16%，清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

框架总览

阶段	输入	核心动作	输出
Phase-1 显式骨架	教材 PDF	目录解析 → 自底向上摘要 → 实体/关系抽取	树状层级图（章节-实体）
Phase-2 隐式扩展	骨架 + 新文献	6 大算子循环：卷积→聚合→嵌入→去重→连边→合并	完整 KG，可无限生长

断档领先16%，清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

Tree-KG 内部层次

关键技术拆解

1 树状层级图（Tree-like Hierarchical Graph）

纵向边：教材目录天然的has_subsection / has_entity
横向边：LLM 预测的同层语义关联，如Coulomb_Law --obey--> Inverse_Square_Law

2 上下文卷积（Conv）

把邻居节点的描述“卷”进来，一次迭代就能让实体嵌入更紧致（图3）。

断档领先16%，清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

同小节实体更紧凑

3 实体去重（Dedup）

先用向量检索找 Top-20 候选
再让 LLM 投票是否同一指称 → 并查集合并
阈值 0.55 性价比最高（图4）

断档领先16%，清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

去重阈值曲线

4 连边预测（Pred）

score = 0.6·语义相似 + 0.3·共同邻居(AA) + 0.1·共同祖先(CA)两阶段贪心：先稀疏补连通，再密集补语义。

实验结果：全面吊打基线

表1 物理领域 Ground-truth 评价（F1 ↑）

断档领先16%，清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

F1 领先 12–16%（GraphRAG、iText2KG、Langchain、AutoKG）
结构一致性 MEC 最高，MED 最低
成本仅 18 RMB（表3），比 LangChain 便宜 36%

表3 Token & 成本对比

断档领先16%，清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

消融实验：每一步都有用

表4 摘要的重要性

断档领先16%，清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

表5 卷积步数

断档领先16%，清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

可视化：Tree-KG 长这样

只有 Tree-KG 把“知识图谱”真的做成了“教科书”该有的样子——有目录、有层次、不重复。

断档领先16%，清华Tree-KG两步「长」出高质量知识图谱-AI.x社区

蓝色=章节，红色=核心实体，黄色=非核心实体

https://aclanthology.org/2025.acl-long.907.pdf
Tree-KG: An Expandable Knowledge Graph Construction Framework forKnowledge-intensive Domains
https://github.com/thu-pacman/Tree-KG

本文转载自PaperAgent

标签

Tree-KG

KG 框架

上下文卷积

已于2025-10-9 07:56:45修改