
大模型知识图谱融合的三大应用场景 原创
目前,随着智能信息服务应用的不断发展,知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐、情报分析、反欺诈等领域,它在技术领域的热度也在逐年上升。 从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。
通过知识图谱能够将Web上的信息、数据以及链接关系聚集为知识,使信息资源更易于计算、理解以及评价,并且形成一套Web语义知识库。知识图谱以其强大的语义处理能力与开放互联能力,可为万维网上的知识互联奠定扎实的基础,使Web 3.0提出的“知识之网”愿景成为了可能。
什么是知识图谱
知识图谱是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系。通过对错综复杂的文档的数据进行有效的加工、处理、整合,转化为简单、清晰的“实体,关系,实体”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理。
知识图谱有自顶向下和自底向上两种构建方式。所谓自顶向下构建是借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中;所谓自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核之后,加入到知识库中。
看一张简单的知识图谱:
如图所示,你可以看到,如果两个节点之间存在关系,他们就会被一条无向边连接在一起,那么这个节点,我们就称为实体(Entity),它们之间的这条边,我们就称为关系(Relationship)。
知识图谱的基本单位,便是“实体(Entity)-关系(Relationship)-实体(Entity)”构成的三元组,这也是知识图谱的核心。
数据类型和存储方式
知识图谱的原始数据类型一般来说有三类(也是互联网上的三类原始数据):
- 结构化数据(Structed Data):如关系数据库
- 半结构化数据(Semi-Structed Data):如XML、JSON、百科
- 非结构化数据(UnStructed Data):如图片、音频、视频、文本
如何存储上面这三类数据类型呢?一般有两种选择,一个是通过RDF(资源描述框架)这样的规范存储格式来进行存储,还有一种方法,就是使用图数据库来进行存储,常用的有Neo4j等。
RDF结构:
Neo4j结构:
在知识图谱方面,图数据库比关系数据库灵活的多。在数据少的时候,关系数据库也没有问题,效率也不低。但是随着知识图谱变的复杂,图数据库的优势会明显增加。
大模型和知识图谱融合
人类有两种主要的思维模式,一种是快速而直觉的,另一种是缓慢而深思熟虑的,这种说法起源于并广泛存在于古老的哲学和心理学著作中。通常用“系统 1 ”和“系统 2 ”来表示以上两种类型的认知过程,诺贝尔奖获得者心理学家丹尼尔·卡尼曼(Daniel Kahneman)在其著作《思考,快与慢》中详细介绍了两种认知系统的区别之处,
系统 1 是直觉性、快速、大容量、并行、无意识、情境化和自动化的,其依赖情感、记忆和经验迅速作出判断,是类似于动物认知的内隐知识;
系统 2 则是分析性、缓慢、有限容量、串行和抽象的,其受到规则的约束,依赖认知能力的运作,是人类进化后期习得的外显知识。目前深度学习包括大模型都在做系统1的工作,而知识图谱擅长做系统 2 的工作。
人工智能的发展有两大经典的流派,一个叫符号主义,一个叫连接主义。知识图谱是经典的符号主义,把知识符号化,通过三元组描述知识和知识之间的关系,再构建成巨大的知识网络,这是知识的显性表达。大模型是连接主义的最新成果,但是它的知识是隐性表达,知识直接存储到模型的神经网络参数中,人不可读。这两种知识表达方式有巨大的差别,也有各自的优势。
大语言模型的专业领域知识有限,特别是工业领域有大量的数据还未清晰甚至数字化;大语言模型存在幻觉问题,这个问题基本无法通过训练从模型训练上解决;大语言模型的知识运维困难,训练成本高且校验成本高;大语言模型无法做严密的知识推理;知识图谱存在构建成本高的问题。
知识图谱和大模型两个技术的结合,会产生 1 + 1 >2 的效果。基于这样的技术思路,我们提出了企业级的工业智能知识服务平台,核心的两大底层技术就是知识图谱和大模型。
我们的想法是将两者结合起来,用知识图谱解决领域知识缺失、领域知识运维、领域知识推理和大模型幻觉的问题,用大模型解决知识图谱构建成本高的问题,实现大模型和知识图谱双擎互相增强。
第一个核心是数据集成。 可以将多模态的数据集中化的管理,包括文档、视频、图片等等,只要是企业内部能够积累的数据,都可以通过平台采集,再做自动知识抽取,可以大大降低员工的使用门槛。
第二个核心是持续学习。 底层的知识图谱和大模型之间能够互相的增强,而且是一个持续学习的过程。这里学习包括两个方面,一个是大模型的迭代,另一个是知识图谱的迭代。前者一是基于知识库中数据做模型微调,二是通过用户反馈不断优化提示词;后者主要是基于新增数据的变化,自动更新知识图谱本体,由本体驱动图谱的更新。
- 大模型的优势:强大的语言理解与生成能力,能处理海量非结构化文本。
- 知识图谱的优势:提供结构化、精准的事实关系网络,保障信息的准确性与可解释性。
知识图谱的架构
知识图谱在逻辑上可分为模式层与数据层两个层次。
- 模式层构建在数据层之上,是知识图谱的核心,通常采用本体库来管理知识图谱的模式层。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。
模式层:实体-关系-实体,实体-属性-性值
- 数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。如果用(实体1,关系,实体2)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,例如开源的Neo4j、Twitter的FlockDB、sones的GraphDB等。
数据层:比尔盖茨-妻子-梅琳达·盖茨,比尔盖茨-总裁-微软
大模型与知识图谱的融合已从技术概念走向规模化落地。在医疗、金融、制造、教育等领域,它正解决着知识碎片化、决策缺乏依据等核心痛点。随着多模态技术发展(如图像知识抽取),两者的结合将释放更大潜力——未来的智能系统不仅是“能说会道”的助手,更是扎根于事实网络的决策大脑。
- 大模型和知识图谱的融合效果:
a.知识增强:KG为大模型提供事实依据,减少“幻觉”;
b.推理强化:KG的关联关系支持复杂逻辑推理;
c.动态更新:KG可独立于大模型更新,保证知识时效性。
知识图谱的三大典型应用
大模型(LLM)擅长“语言泛化”,知识图谱(KG)擅长“精准结构”。两者融合=LLM负责交互与生成,KG负责事实、溯源与推理,形成“可解释、可追溯、可落地”的企业级AI方案。目前的知识图谱技术主要用于智能语义搜索、移动个人助理(Siri)以及深度问答系统(Watson),支撑这些应用的核心技术正是知识图谱技术。
知识图谱的典型应用包括语义搜索、智能问答以及可视化决策支持三种。
1、语义搜索
当前基于关键词的搜索技术在知识图谱的知识支持下可以上升到基于实体和关系的检索,称之为语义搜索。在智能语义搜索中,当用户发起查询时,搜索引擎会借助知识图谱的帮助对用户查询的关键词进行解析和推理,进而将其映射到知识图谱中的一个或一组概念之上,然后根据知识图谱的概念层次结构,向用户返回图形化的知识结构,这就是我们在谷歌和百度的搜索结果中看到的知识卡片。
语义搜索可以利用知识图谱可以准确地捕捉用户搜索意图,进而基于知识图谱中的知识解决传统搜索中遇到的关键字语义多样性及语义消歧的难题,通过实体链接实现知识与文档的混合检索。
语义检索需要考虑如何解决自然语言输入带来的表达多样性问题,同时需要解决语言中实体的歧义性问题。同时借助于知识图谱,语义检索需要直接给出满足用户搜索意图的答案,而不是包含关键词的相关网页的链接。
2、智能问答
问答系统(Question Answering,QA)是信息服务的一种高级形式,能够让计算机自动回答用户所提出的问题。不同于现有的搜索引擎,问答系统返回用户的不再是基于关键词匹配的相关文档排序,而是精准的自然语言形式的答案。
智能问答系统被看作是未来信息服务的颠覆性技术之一,亦被认为是机器具备语言理解能力的主要验证手段之一。
智能问答需要针对用户输入的自然语言进行理解,从知识图谱中或目标数据中给出用户问题的答案,其关键技术及难点包括准确的语义解析、正确理解用户的真实意图、以及对返回答案的评分评定以确定优先级顺序。
3、可视化决策支持
可视化决策支持是指通过提供统一的图形接口,结合可视化、推理、检索等,为用户提供信息获取的入口。例如,决策支持可以通过图谱可视化技术对创投图谱中的初创公司发展情况、投资机构投资偏好等信息进行解读,通过节点探索、路径发现、关联探寻等可视化分析技术展示公司的全方位信息。
可视化决策支持需要考虑的关键问题包括通过可视化方式辅助用户快速发现业务模式、提升可视化组件的交互友好程度、以及大规模图环境下底层算法的效率等。
现在以商业搜索引擎公司为首的互联网巨头已经意识到知识图谱的战略意义,纷纷投入重兵布局知识图谱,并对搜索引擎形态日益产生重要的影响。如何根据业务需求设计实现知识图谱应用,并基于数据特点进行优化调整,是知识图谱应用的关键研究内容。
本文转载自数字化助推器 作者:天涯咫尺TGH
