社区编辑申请
注册/登录
从 "垃圾 "数据到数据完整性的转变
大数据
当个人从一个更大的数据集中为一个特定的用例复制数据,对其进行修改,然后不将这些修改整合到更大的数据集中时,垃圾数据就开始积累。

数据产生的速度越来越快,这已经不是什么秘密。根据IDC的数据,由于在家里工作、学习和做事的人数突然增加,2020年产生和复制了更多的数据。此外,据预测,未来5年创造的数字数据量将是数字存储出现以来所创造数据量的两倍以上。

但这引出了一个问题,这些数据有用吗?还是只是“垃圾”?答案在于组织如何管理他们的数据,那些做得好的组织不太可能遇到垃圾数据。但对于那些没有正确的工具来管理所有的数据来源的企业来说,答案是肯定的,他们正在处理垃圾数据。

在我们讨论公司如何摆脱垃圾数据的麻烦(和成本)之前,让我们更深入地了解什么是垃圾数据。首先,我们应该解决什么是垃圾数据的问题:原始数据不是垃圾数据。这包括从交易系统、产品、设备和其他来源创建的任何数据。

什么是垃圾数据?

另一方面,垃圾数据是任何不受治理的数据,当你创建了一个数据副本,然后为一个特定的使用案例进行操作,而没有将改进的数据返回到原始数据存储,为下一次使用提高质量时,就会产生垃圾数据。Salesforce将垃圾数据分为四类:缺失的信息、不准确的信息、过时的数据和重复的数据。

当个人从一个更大的数据集中为一个特定的用例复制数据,对其进行修改,然后不将这些修改整合到更大的数据集中时,垃圾数据就开始积累。例如,如果你在你的记录系统中有一个正式的客户地址数据库,只复制了那些在芝加哥地区的客户,并更新了该数据的子集,而没有更新源数据,你就创造了垃圾数据。有了垃圾数据,你就没有一个明确的脉络或省份,它就不能被其他人轻易地访问和使用;更糟糕的是,你有多个不一致的“真相”版本。这最终会在一个组织内产生多个一次性的数据集,而这些数据并不能为所有用户提供价值。垃圾数据带来了问题。

为什么垃圾数据是一个问题?

垃圾数据会给组织带来许多问题,例如:

  • 不一致的结果,取决于你是用原始的还是复制的、修改过的数据集,如果数据包含不同的信息,会有不同的结果,包括不同的匹配率、运营失败,也许最糟糕的是导致糟糕的客户体验。
  • 不准确的结果,如果数据集是过时的,不完整的,或包含错误的信息,输出也会是这样。
  • 隐私问题,包含任何敏感信息的无人管理的数据副本是有风险的,因为可能不符合监管的要求,而这种风险往往是高层管理人员所不知道的,直到严重的问题发生,为时已晚。
  • 信息安全,在任何可以创建垃圾数据的环境中,都存在着安全问题。这个问题类别的严重程度将根据数据的类型而有所不同。常见的例子包括不遵循内部程序,违反许可证或知识产权,以及数据被黑客攻击,因为它被储存在公司的安全操作之外。
  • 财务成本,由于上述任何一个原因,创建和使用垃圾数据是低效的。

然而,垃圾数据造成的最大问题是,它为实现数据完整性构建了一个障碍。通过建立数据完整性,一个组织能够更好地发展和管理一个可信赖的数据基础,这个数据基础是准确的、一致的、有背景的,并带来更明智的商业决策。

为什么数据完整性很重要

数据完整性是指数据集的质量、可靠性、可信度和完整性。它建立在四个关键支柱上:企业范围内的整合、准确性和质量、位置智能和数据丰富。

在更大的范围内,如果一个组织的数据具有完整性,企业领导人就可以利用这些数据做出准确的业务决策,从而获得更好的结果。在垃圾数据的背景下,如果一个公司已经实现了数据的完整性,他们就不再需要花时间去解决数据的不一致性,纠正和审查数据。完整性的数据已经在手边,这些数据可靠并准备好,可以开始工作了。

从垃圾数据到数据完整性的转变

摆脱垃圾数据的最好方法是消除对它的需求。如果一个组织创建了具有高完整性的可访问数据资产,并在一个受管理的环境中确保数据可以按照公司的政策、权利和指导方针使用,那么员工将不再需要创建和维护数据的副本来执行一个特定的任务。通过花时间在前期投资其数据完整性,公司可以确保其数据资产的质量和安全性,并适当地提供给企业,最终节省时间和金钱。

责任编辑:赵宁宁 来源: ITPUB

同话题下的热门内容

大数据分析技术和方法有哪些?节日消费数据不“杀熟”?大数据带你一起“解”七夕!五个方法,破解数据分析的核心难题数据专家的晋级之路:大数据中的四大挑战!数据挖掘和数据仓库之间的区别大数据的过去正在颠覆人们的未来2022年网购如何对抗大数据杀熟,更换商品名词有惊喜什么是数据沿袭?相关技术、最佳做法和工具

编辑推荐

使用Pandas&NumPy进行数据清洗的6大常用方法2018年7款最佳免费数据分析工具pyspark访问hive数据实战【漫谈数据仓库】 如何优雅地设计数据分层人工智能、大数据与深度学习之间的关系和差异
我收藏的内容
点赞
收藏

51CTO技术栈公众号