一种基于机器学习的自动文档标签图谱技术

人工智能
本文主要详细讲解了是个方面,即:知识图谱技术发展趋势、基于机器学习的标签图谱技术思路、关键技术分析、典型应用案例分享。

 本期课程重点分为以下四个方面:知识图谱技术发展趋势、基于机器学习的标签图谱技术思路、关键技术分析、典型应用案例分享。

  一、知识图谱技术发展趋势

  1. 知识图谱

  (1)定义

  知识图谱:是一种规模非常大的语义网络系统,是海量文本知识挖掘最常见的手段之一。知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,一般用三元组表示。知识图谱亦可被看作是一张巨大的图,节点表示实体或概念,而边则由属性或关系构成。

[[391855]]

(2)发展历程

  知识图谱的发展分为起源、发展、繁荣三个阶段。

  (3)应用

  目前,知识图谱在金融、医疗、教育、司法等多个行业领域广泛应用。

  • 金融行业:反洗钱、反欺诈等

 • 医疗行业

• 教育行业

• 司法:知识图谱在司法中能解决证据索引、类案推送、结果预判、证据分析、文书生成和智慧调解

(4)重要作用

  知识图谱具有获取、表示和处理知识的能力,是人类心智区别于其它物种心智的重要特征,且已成为推动机器基于人类知识来获取认知能力的重要途径,并将逐渐成为未来智能社会的重要生产资料。

  知识图谱是人工智能的基石,包括感知层与认知层。知识图谱推动人工智能的应用,是强人工智能发展的核心驱动力之一。

  (5)知识图谱的特点

  • 特点:

  √ 适用范围:面向文本知识和数据

  √ 数据方面:要求具备一定的数据量

  √ 知识内容:对知识的宽度、深度有要求,视具体业务情况

  √ 要求数据标注:机器学习的前提,越多越好

  √ 需要业务专家评估结果的准确性

  √ 通用性较差:不同行业效果差异很大

  √ 技术复杂:涉及业务、信息、网络、人工智能、算法、图形和大数据等多个方面

  2. 知识图谱面临多方面的挑战

  (1)数据方面的挑战:多源数据的歧义多、噪声大,数据关联性不明确

  (2)算法挑战:现有算法知识抽取准确性、算法性能和算法可解释性的挑战(各行业不一样)

  (3)基础知识库的挑战:知识库融合、垂直领域知识库构建、基础知识库不开放

  (4)开发工具的挑战:全生命周期平台的缺失、算法工具专家间人机协同需要提升、基于文本的知识图谱构建工具性能弱、跨语言语系的挑战、知识图谱中间件缺乏

  (5)隐私、安全方面的挑战

  (6)测试认证方面的挑战

  (7)商业模式与人才相关的挑战

  (8)标准化方面的挑战

  3. 工业领域文档知识特点

  知识图谱在通用领域得到广泛的应用与发展,但在工业领域的应用却不是很多,这与工业领域的行业特点、专业性、保密性和复杂性有关。

  (1)原始文档知识数据庞大、格式繁多:知识获取很复杂、技术难度高、成本高、时间长

  (2)年增长速度很快、存储分散

  (3)专业性太强:与具体的场景关联很强

  (4)公开的工业知识库很少

  (5)保密性强:知识传播、共享有限制

  (6)专业学科多,知识应用复杂:通用性不强,成本高

  4. 工业领域知识图谱面临的问题

  与传统通用领域不同,工业领域的知识图谱在知识获取、知识应用方面存在较大的困难,总结起来主要有以下几点:

  • 工业知识获取技术难度高、投入大、周期长

  • 小批量、小样本下的知识图谱如何生成

  • 知识图谱的准确度问题

  • 与结构化数据的知识融合问题

  • 缺乏标准化的知识图谱平台:任意扩展算法、语种、专业学科

  • 自主可控问题

  二、基于机器学习的标签图谱技术思路

  1. 标签的定义与意义

  (1)标签定义:是知识内容高度抽象、高度概括的具现化,是知识某个维度的特征。它具有丰富的含义和内涵,内容简单、明了。

  (2)标签作用:分类、快速查找、快速了解、用户画像、产品画像……

  (3)标签在工业领域中的意义:

  • 具备常规标签功效和能力

  • 专业性:专业术语、词汇、主题……

  • 是工业知识图谱基于知识运维模式的重要方法之一:标签可以认为是关键词、主题、事件

  2. 标签应用

  标签应用:非常广泛,比如知识分类、信息关联、用户画像、产品画像、数据统计挖掘等。以客户管理为例,客户管理是制定六大目标的相关标签体系,可以实现精确客户营销,产生最大客户价值。

  3. 标签体系构建方法

  (1)三大原则:

  • 放弃大而全的框架,以业务场景倒推标签需求

  • 标签生成自动化,解决效率和沟通成本

  • 有效的标签管理机制

  (2)建立一个完整的标签体系需要注重四点

4. 标签示例

电商标签体系示例

 知识三维标签体系示例

  5. 基于标签图谱的技术思路

  (1)思路重点:标签代替实体

  (2)影响准确度的因素:

  • 预处理结果质量

  • 标签实体识别

  • 关系抽取

  • AI算法优化

  • 业务协同程度

  (3)基于知识运维的知识图谱特点:原始数据少、通过迭代逐步丰富数据、通过迭代校正图谱中的错误、逐步把专家头脑中的知识挖掘出来,特别注重人机协同。

 三、关键技术分析

  1. 智能标签技术

  (1)技术要点:基于人工智能算法,从单个文档里提取若干个内容特征词作为文档的内容标签

  (2)标签目的:为下一步内容标签实体处理、标签实体关系和标签应用提取做准备

  (3)专业要求:

  • 提供专业词汇库、术语库、近义词/同义词库可以提高专业性(必填项)

  • 通过预设标签和编码,可以规范标签名称,缩小标签范围

  • 通过预设关联词之间的关系和权重,可以精确语义理解,消除二义性

  • 通过人工标注,可以提高准确性(可选项)

  • 在标签使用过程中,可以人工纠错(类似人工标注,小样本知识图谱常用的手段)

  2. 标签关系抽取技术

  • 常规知识图谱要素:实体、关系、方向

  • 标签知识图谱要素:与常规知识图谱类似

  √ 标签=实体

  √ 关系:按常规方法抽取

  √ 方向:按常规方法抽取

  √ 标签图谱类似关键词图谱、主题图谱

  √ 自动化:辅以人工标注(工作量小、简单)

  3. 标签图谱存储与可视化技术

  • 图谱结构:三元关系,即对象A-关系-对象B

  • 图谱存储:RDBMS数据库或图数据库

  • 图谱检索:以标签为基础,也可以是一段文字

  • 可视化:ECHART图表等,与具体的图谱数据没有直接关系,扩展能力强

  四、典型应用案例分享

  1. 基于试验知识文档的标签知识图谱需求

  • 背景:

  在某试验单位试验设计师的工作电脑上,存放着多年与试验相关的参考文档。虽然已对其进行初步分类,整理成多个分件夹和子文件夹,但有些文件夹下文档比较多,而有些文件夹下仅有一个文档,同时每年都在不停地更新,这会造成使用时的不便,我们可以将其归纳为以下几点主要问题:

  √ 麻烦:每次查找资料时不能一下全部找到,需要按文件夹逐层往下找

  √ 效率低:每次查看文档时,必须要打开文档大概看一遍,才知道里面是否有想要的内容

  √ 专业性不精确:与试验相关的资料越来越多,专业性越来越强,文件夹命名已不能体现文档的内容

  √ 信息孤岛现象严重:想要的内容分散在不同的文档里,不能在多个文档中快速找到想要的内容

  • 需求:提供一个工具或方法,能快速解决上述问题

  2. 试验参考文档分析

  (1)源文档分析

  • 文档总数:3500多篇

  • 目录个数:82个

  • 二三级目录有不少

  • 多种文件格式:WORD、PDF、TXT

  • 涉及专业比较宽:试验、大数据、云计算、试验件、试验方案和试验报告等

  • 试验相关的文献占一半左右

  (2)试验类文档分析

  • 业务类:31个目录,647个文献

  • 数据类:11个目录,982个文献

  • 文档分布不均:有的多,有的少

  (3)技术思路

  • 总体思路:采用基于机器学习的自动文档标签图谱技术来解决

  • 理由:

  √ 文档覆盖面比较宽,但细分类的文档数量太少,最少的仅有一篇文档,不适合大规模知识图谱技术

  √ 文档在不断更新,但更新的数量不会很多

  √ 使用者是业务专家,有足够的资历、能力来协助工人智能自动打标签、生成知识图谱

  √ 使用者可以随时纠正图谱中的错误

  • 主要步骤:

  √ 文本预处理

  √ 知识文档语义化

  √ 智能自动打标签

  √ 校正智能标签准确性

  √ 自动标签图谱

  √ 校正标签图谱的准确性

  • 预处理要点与结果展示:

  √ 必须把文档里的图片、表格单独抽取出来做特殊处理

  √ 注意论文竖排版面格式

  √ 表格里的数据需要单独处理

3. 试验知识文档智能标签

  智能自动标签:预设标准化的试验标签与编码,由人工智能根据文档内容来决定对标预设的标签,通过多种标签提取算法综合分析来决定合适的标签(默认前10个)。在试验专业术语、词汇、同近义词辅助下,准确率高达90%以上。

  4. 试验标签知识图谱

  (1)图谱生成

  基于中文语法、词性和句子成分,采用先进、成熟的标签实体关系抽取算法来抽取关系,标签实体构成图谱“三元”关系。  

地面模型试验图谱示例

  (2)准确性提升

  • 试验数据方面:

  √ 试验辅助词库:专业术语、同义词、近义词、关联词

  √ 二义性消除:通过关联词权重规则

  √ 扩大关联词范围:人工给出小部分,大部分由人工智能给出,然后由人工确定是否选用为关联词

  √ 通过专业工具对两竖排排版的文献进行单独处理

  • 技术方面:

  √ 选用多种算法综合比较分析,择优选择标签并排序

  √ 辅助人工标注、学习,提升准确性

责任编辑:梁菲 来源: 互联网
相关推荐

2017-05-02 14:41:00

网络钓鱼机器学习社会工程

2017-10-27 18:40:01

机器学习终身机器学习迁移学习

2017-12-05 14:55:56

2009-06-03 15:38:37

Struts框架RBAC

2020-06-18 07:00:00

机器学习人工智能开源框架

2021-07-27 08:00:00

机器学习开发工具

2023-07-18 07:23:11

方案payloadrequest

2020-04-27 09:52:03

预测销售机器学习ML

2023-09-12 14:46:24

人工智能自然语言

2022-06-06 15:44:24

大数据数据分析思维模式

2020-12-23 10:10:23

Pythonweb代码

2022-07-07 10:33:27

Python姿势代码

2022-06-22 09:44:41

Python文件代码

2018-05-29 09:00:00

LinuxBTFS文件系统

2011-05-10 09:09:36

身份验证HID Global

2023-08-21 08:00:00

人工智能大型语言模型

2021-04-16 10:49:07

人工智能机器学习

2023-06-13 10:00:21

自动驾驶技术

2018-12-29 09:25:05

区块链数据经济区块链技术

2009-12-15 19:18:39

Ruby源代码
点赞
收藏

51CTO技术栈公众号