社区编辑申请
注册/登录
使用替代数据的五个隐性成本
大数据 数据分析
获取、存储和管理替代数据给 IT 经理带来了新的挑战,并可能带来大量不必要的成本。以下是五个这方面的挑战以及如何减轻其影响。

如今,替代数据源已嵌入到各个行业的企业业务流程中。根据Lowenstein Sandler 律师事务所2022 年的一项调查,92% 的投资机构(从对冲基金、私募股权到风险投资)都在以中等或很大的程度使用替代数据来为决策提供依据。受访者还预计,他们在 2022 年对替代数据的使用量将增加。通常,这些数据来自对其他业务流程的处理,例如社交媒体活动、卫星图像、位置跟踪数据、信用卡交易和网页数据抽取。

尽管替代数据可以在整个企业中使用,从营销和销售部门到财务和战略职能部门,但 IT 部门通常负责管理和拥有第三方数据。2019 年,Forrester Research发现,56% 的替代数据收集工作由 IT 部门的首席信息官和首席数据官负责管理。

获取、存储和管理替代数据给 IT 经理带来了新的挑战,并可能带来大量不必要的成本。以下是五个这方面的挑战以及如何减轻其影响。

选择供应商的成本

根据 Lowenstein 律师事务所的调查,选择供应商的成本是替代数据使用者最担心的一个问题,61% 的受访者表示这是他们最担心的问题。这些成本是由于审查替代数据提供商这一耗时过程产生的,从而可确保他们提供的数据满足质量要求。当这些数据将成为某一业务流程的核心要素且不易替换时,这一点尤其重要。在这些情况下,数据购买者确信供应商在可预见的未来能够持续提供这些数据,这是至关重要的。

降低这些风险的一种方法是寻求行业联盟来找出可靠的数据源。在同一行业经营的其他公司很可能有类似的需求,并可能会分享一些想法和最佳做法。

适当寻找一些技术熟练的员工

根据 Quanthub 平台的一项调查,2020 年存在 250000 名数据科学家的缺口。截至 2022 年 4 月下旬,招聘网站 Indeed.com 仅在英国就列出了 2700 个数据科学家空缺职位。拥有适当技能的专业人员的短缺正在迫使工资上涨,同时使留住现有员工变得更加困难。数据科学家并不是将替代数据整合到业务中所需的唯一人员。Forrester Research建议企业使用“数据猎人”的服务,这些人的职责是查找可行的替代数据,并验证这些数据源的准确性和完整性。欧洲再保险提供商慕尼黑再保险公司 (Munich Re) 为此雇佣了一个由 20 名数据猎人组成的团队。

这种技能短缺的潜在解决方案包括对现有员工进行培训,他们对业务及其需求的了解使其比新员工更具优势。与提供数据科学课程的高等院校建立联系,探索学生实习和毕业生培训计划的可能性,这是打造技能管道的另一种方式。

明确数据所有权

替代数据的性质及其非传统的来源可能使验证数据所有权的过程比使用由成熟且可信的供应商提供的数据更加困难。当多个数据源在购买之前已组合在一起,并且追踪其来源可能很复杂时,尤其如此。在许可、知识产权法和数据保护法规方面可能会面临困难。

通过选择那些在数据搜寻方法上可为客户提供一定透明度且可信赖的供应商,可以缓解问题。当然,尽可能使用内部数据是降低风险的另一种方法。

升级模型以处理替代数据

维护数据模型以确保其具有稳定性并在出现错误时对其进行处理,这是被许多企业低估的一项重大成本。Idera 公司预测,维护工作通常占开发预算的 50-80%。将新的数据源添加到模型中也会给本已紧张的预算增加大量成本。

在开始时仔细地进行数据建模,并在模型设计中纳入一定的灵活性,可以使这一过程顺利进行。

使用适当的工具来存储替代数据

在 Lowenstein 律师事务所进行的调查中,25%的受访者表示,缺乏存储替代数据的工具和技术是一个严重的问题。问题的部分原因在于不同数据源之间在更新频率、API 和数据格式方面缺乏一致性。清理数据以确保模型平稳运行并产生一致且可靠的结果,这可能产生一笔巨大的成本。不断增加的存储方案(本地系统、云端,以及混合解决方案),并确保这些方案高效运转以满足数据模型的摄取要求,这又增加了另一层复杂性和成本。

随着数据继续为那些能够利用其商业潜力的公司提供竞争优势,替代数据将变得越来越重要。重要的是要了解,尽管许多替代数据源的使用成本可能很低或无需任何成本,但使这些数据源符合预期目的并将其整合到既定的工作流程中可能会产生其他(有时是巨大的)成本。

责任编辑:姜华 来源: 企业网D1Net
相关推荐

2022-06-05 21:09:47

Python办公自动化

2022-06-17 09:47:04

Linux命令

2022-06-15 08:21:49

Linux运维工程师

2022-06-15 08:25:07

Python天气数据可视化分析

2022-06-28 10:03:56

CentOSLinux

2022-06-29 14:46:00

网络攻击数据泄露勒索软件

2022-06-10 07:45:09

CentOS国产操作系统

2022-06-16 17:02:49

微软智能云混合云Azure

2022-06-30 10:56:18

字节云数据库存储

2022-06-01 17:47:24

运维监控系统

2022-06-30 11:03:27

DDoS攻击WAF

2022-06-22 05:53:49

城域网广域网VXLAN

2022-06-27 15:25:08

架构模型治理

2022-05-19 19:14:30

数据中心纵向扩展横向扩展

2022-06-28 10:58:35

勒索软件攻击事件

2022-06-08 13:25:51

数据

2022-06-15 16:16:21

分布式数据库鸿蒙

2022-06-24 14:07:06

机器人供应链人工智能

2022-06-21 21:47:13

数据系统

2022-06-28 14:47:43

数据中心服务器科技

同话题下的热门内容

七个好用常见的大数据分析模型如何用好数据科学?七张图,学会做有价值的经营分析Apache Doris刚刚 "毕业":这个SQL数据仓库有什么不一样?一文看懂:数据指标体系的四大类型

编辑推荐

什么是数据分析的漏斗模型?数据分析师还吃香吗?用数据告诉你对比解读五种主流大数据架构的数据分析能力《狄仁杰之四大天王》影评分析(爬虫+词云+热力图)22个免费的数据可视化和分析工具推荐
我收藏的内容
点赞
收藏

51CTO技术栈公众号