改进机器学习:知识图谱如何为数据赋予更深层的意义? 译文
人工智能 机器学习 知识图谱
许多企业在部署机器学习系统时,采用了过时的数据管理方法,这就会导致两个负面影响:一是过时的数据复制方法会延迟最终的洞察结果,二是造成数据缺乏统一性、语境化。

编译 | 布加迪

编辑 | 薛彦泽

【51CTO.com快译】许多企业在部署机器学习系统时,采用了过时的数据管理方法,这就会导致两个负面影响:一是过时的数据复制方法会延迟最终的洞察结果,二是造成数据缺乏统一性、语境化。

过度的数据复制和由此产生的“二阶效应”正在给大多数组织的数据科学家造成巨大的低效和浪费。据IDC公司声称,去年生成了超过60ZB的数据,预计年复合增长率将达到23%,并将一直持续到2025年。更糟糕的是,独特数据与复制数据之比为1:10,这意味着大多数组织的数据管理方法基于拷贝数据。

公司在创建机器学习模型时,通常通过从不同数据源复制相关数据来划分这些数据。模型通常拿其中20%的数据进行训练,其余80%的数据保留用于测试。数据清理、特征工程和模型评估这些工作需要六个月或更久,这会使数据在此过程中变得过时,同时推迟获得洞察的时间,并影响数据结果。

传统、过时的数据管理方法的第二个影响是洞察质量下降。这种影响不仅归因于使用陈旧数据构建模型,还归因于关系意识不足、垂直数据孤岛断开、上下文信息不足以及关系数据管理技术在模式(schema)上的限制。

用现代数据结构正确实施知识图可以纠正这些数据管理问题,同时增加机器学习的价值。在知识图助力的数据结构中部署数据虚拟化使数据科学家能够将机器学习引入到数据,避免了浪费时间和资源。

此外,图模型固有的灵活性及其利用相互关系的能力使得组织为机器学习准备数据变得极其容易,因为它们提供了改进的特征工程、根本原因分析和图分析等功能。随着数据管理和人工智能趋于融合,这项功能还帮助知识图转而成为未来20年主要数据管理结构的关键。简而言之,知识图对AI的帮助将如同AI对知识图的帮助一样大。

数据科学家需要战略数据管理

越来越多的数据组织在处理长期的机器学习部署。数据孤岛或数据湖中不同的数据格式、模式和术语会延迟需要这些训练数据的机器学习计划。缺乏上下文和语义注释使得组织难以理解数据的含义及特定模型的用途。即使数据有充足的上下文,这些信息也很少能持久,因此组织必须重新开始后续项目。快速移动的数据(比如物联网设备收集的信息)使复制这些不同数据时所需的数月培训变得更加困难。组织被迫通过再次复制新数据来应对这一障碍,重新启动这个损害模型功能的耗时过程。

一种推荐方法是在数据结构层训练模型,而不是将数据复制到孤岛中。组织无需移动数据,即可轻松创建训练数据集和测试数据集。比如说,组织甚至可以指定一个随机的20% 的数据样本,使用查询通过这种基于知识图的数据虚拟化方法提取特征并提供训练数据集。这种方法阐明了数据管理和机器学习之间的联系,以加快获得洞察力,另一个好处是使用更新颖的数据训练模型。

获得高质量的机器学习洞察力

与关系或其他方法相比,知识图谱为理解企业数据提供了更丰富、更扎实的基础。它们提供节点边缘之间的上下文理解和关系检测,这是图存储数据的方式。语义图数据模型显著增强了该功能,这种模型将针对特定公司的术语标准化为一组分层的词汇表或分类法。因此,数据科学家天生就能理解数据的含义以及与任何用例(比如机器学习)的关系。语义图数据模型还在模式层面对齐数据,提供有关概念或业务类别的智能推断,并在提供企业数据完整视图的同时避免术语或同义词存在的传统问题。

这些特征对此至关重要:缩短为机器学习准备数据所需的时间,同时从可用数据中生成高度细微的、语境化的洞察力。这种方法的另一个好处是针对图的算法与机器学习密切相关。它们允许数据科学家充分利用与聚类、降维、主成分分析(PCA)和无监督学习相关的特定技术,这些技术非常适合为机器学习准备好图格式的训练数据。这些技术及其他技术(如图嵌入)可以加快特征生成过程,或为数据准备提供影响分析。

融合数据管理和知识管理

知识图谱对机器学习的总体效用证明了数据管理和知识管理具有相辅相成的性质。引用广受赞誉的谷歌研究教授Peter Norvig的话来说,有了足够的数据,人们就不需要花哨的算法。也就是说,在知识图谱和数据虚拟化支持的统一数据结构中融合数据管理和知识管理提供了更丰富、更高质量的数据,从而使组织能够在没有完美算法的情况下优化机器学习。

比如说,如果拥有关于客户购买习惯的足够数据,组织就不需要花哨的算法来预测哪些客户会对新产品感兴趣。数据管理和知识管理的融合为组织提供了增强的智能算法及模型,进而为决策提供了有力的信息依据,从而最大限度地发挥AI的优势。

原文标题:Improving Machine Learning: How Knowledge Graphs Bring Deeper Meaning to Data,作者:Kendall Clark

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

 

责任编辑:华轩 来源: 51CTO

同话题下的热门内容

对抗性机器学习的初学者指南2022年商业智能的七大趋势购买或自建人工智能(AI)解决方案时要问的五个关键问题购买或自建人工智能(AI)解决方案时要问的五个关键问题

编辑推荐

资源 | 8张思维导图帮你梳理深度学习&机器学习多个知识点Uber 刘彦东:当Uber开拓送餐服务后,全世界的外卖都震惊了初学者必读:从迭代的五个层面理解机器学习人工智能需要掌握那些知识点?应该看什么书籍?超详细教程吴思楠机器学习之路:Numpy里多维数组的创建
我收藏的内容
点赞
收藏

51CTO技术栈视频号