
回复
为什么又要造一个新的 KG 框架?
传统方法痛点 | Tree-KG 的对策 |
规则/监督系统:标注贵、迁移差 | 零标注,直接读教材 |
通用 LLM 抽取:结构混乱、难扩展 | 先搭“目录树”骨架,再迭代扩枝 |
快速演化领域:增量更新难 | 预设 6 种算子,新文献即插即合并 |
框架总览
阶段 | 输入 | 核心动作 | 输出 |
Phase-1 显式骨架 | 教材 PDF | 目录解析 → 自底向上摘要 → 实体/关系抽取 | 树状层级图(章节-实体) |
Phase-2 隐式扩展 | 骨架 + 新文献 | 6 大算子循环:卷积→聚合→嵌入→去重→连边→合并 | 完整 KG,可无限生长 |
Tree-KG 内部层次
(c) 聚合前 vs (d) 聚合后:黄色节点被收编,结构更清晰
has_subsection / has_entity
Coulomb_Law --obey--> Inverse_Square_Law
把邻居节点的描述“卷”进来,一次迭代就能让实体嵌入更紧致(图3)。
同小节实体更紧凑
去重阈值曲线
score = 0.6·语义相似 + 0.3·共同邻居(AA) + 0.1·共同祖先(CA)两阶段贪心:先稀疏补连通,再密集补语义。
表1 物理领域 Ground-truth 评价(F1 ↑)
表3 Token & 成本对比
表4 摘要的重要性
表5 卷积步数
只有 Tree-KG 把“知识图谱”真的做成了“教科书”该有的样子——有目录、有层次、不重复。
蓝色=章节,红色=核心实体,黄色=非核心实体
https://aclanthology.org/2025.acl-long.907.pdf
Tree-KG: An Expandable Knowledge Graph Construction Framework forKnowledge-intensive Domains
https://github.com/thu-pacman/Tree-KG
本文转载自PaperAgent