一文读懂:什么是合成数据?

大数据
合成数据是在详细的算法和仿真的帮助下系统生成的人工数据。它是完全匿名的数据,是真实数据的绝佳替代品,因为它允许组织创建按需培训数据,无论他们想要多大的规模。

如今,数据正在大规模地产生,为机器学习提供了绝佳的机会。然而,对于数据科学家和机器学习实践者来说,这些数据的很大一部分仍然是超界的。严格的隐私管理、高昂的成本、长时间的处理都阻碍了数据的分析。

因此,Gartner预估85%的AI项目都将失败,这就是合成数据的好处所在。

合成数据是在详细的算法和仿真的帮助下系统生成的人工数据。它是完全匿名的数据,是真实数据的绝佳替代品,因为它允许组织创建按需培训数据,无论他们想要多大的规模。

什么是合成数据?

人工智能算法人工创建合成数据,但它是在真实数据集上训练的,具有与原始数据相同的属性。由于合成数据与实际数据没有一对一的关联,因此重新识别的机会更少。

因此,数据科学家可以自信地复制和使用数据进行测试和建模,而不会有暴露个人身份信息的风险,也不会与监管机构发生冲突。

如何生成合成数据?

有几种方法可以生成合成数据。更简单的选择包括蒙特卡洛模拟和从分布集中绘制数字,但如果数据集很复杂,通常首选生成模型。

生成模型是基于神经网络的,它可以自动从现实数据中找到的模式中学习,并产生与现实数据精确匹配的信息。生成对抗网络(GANs)和变分自编码器(VAEs)是两种常见的生成模型架构。

在GAN模型中,两个神经网络模型(称为生成器和鉴别器)在一个零和游戏中竞争,其中一个网络的收益就是另一个网络的损失。另一方面,变分自编码器是工作在编码器-解码器概念上的无监督模型。

什么工具有助于合成数据的生成?

下面是可以用来创建合成数据的工具示例:

  • Datagen是一个合成数据集解决方案,提供逼真的数据集,可用于物联网(IoT)、机器人和增强现实(AR)。
  • Scikit-learn构建于Matplotlib、NumPy和SciPy之上,是一个开源的Python库,提供了生成合成数据集的工具。
  • Pydgben是一个Python库,它可以创建常见的条目,如姓名、工作、信用卡号码、电子邮件地址等。
  • 并行域是一个合成数据平台,产生高质量的传感器数据,以改善ML模型和计算机视觉工作流程。

使用合成数据的好处

在构建机器学习模型时,合成数据比其他类型的数据更具可扩展性、更容易使用、更具有成本效益。

  • 可伸缩性。ML模型消耗大量数据。为了训练和测试的目的,根本不可能获得如此大量的有关数据。借助合成数据工具,数据科学家可以创建任意数量的数据副本,以构建高质量的AI/ML模型。
  • 易用性。在处理真实数据时,保护个人信息、消除不准确信息和有效地处理不同格式的数据至关重要。合成数据处理起来要容易得多,因为它掩盖了私人信息、消除了错误,并标准化了格式,以更直观地进行标记。
  • 具有成本效益。获取真实的培训数据可能会让企业花费大量资金。此外,手动标记它们是耗时的。有了合成数据生成工具,这一过程被简化,并证明是一个更经济和更快的过程。

使用合成数据的挑战

合成数据提供了一些好处,但它也有一定的局限性。例如,一个显著的缺点是,有效地使用合成数据需要高技能的分析师,他们知道如何使用复杂的数据生成器工具。这通常是困难的,因为在就业市场上缺乏合格的人工智能工人。

此外,合成数据只与原始数据一样好,而真实数据往往充满偏见。因此,当神经网络在有偏差的历史数据上训练时,它们反映了相同的偏差。这通常会导致机器学习模型的输出不准确。

合成数据的用例

合成数据最突出的两个应用案例是自动驾驶汽车和医疗保健。

  • 自动驾驶。到目前为止,自动驾驶汽车是合成数据的最佳用例。汽车制造商必须考虑数以百万计的场景,并收集相应的数据,以制造安全的汽车。这在现实中是不可能实现的,但通过合成数据,组织可以生成任何可以想象的驾驶场景的数百万甚至数十亿种排列,从而达成安全驾驶解决方案。
  • 医疗保健。医疗保健是一个高度监管的行业,有严格的法律管理患者数据的使用。由于合成数据是完全匿名的,不存在重新识别的风险,医疗机构可以轻松地使用它进行科学研究、临床试验和训练医疗行业的ML模型。

合成数据的未来

合成数据生成是创建具有成本效益和高度可伸缩数据的革命性方法。随着人们对合成数据及其各种好处的认识越来越多,越来越多的企业将挖掘其潜力以获得好处。

此外,随着隐私法的收紧,企业将别无选择,只能求助于合成数据。因此,它将继续受到欢迎,直到它完全成为主流。

责任编辑:赵宁宁 来源: IT168网站
相关推荐

2021-10-18 14:30:55

物联网IOT

2023-05-11 15:24:12

2023-04-11 14:48:34

2023-03-08 11:54:00

NB-IoT智能管理

2024-02-29 14:27:37

人工智能机器学习物联网

2023-02-23 15:32:55

2018-08-23 04:26:54

合成数据机器学习数据集

2022-10-20 08:01:23

2023-06-26 16:51:49

数字孪生数字技术

2018-09-05 15:51:25

Java自动拆装箱

2022-10-08 06:38:01

元宇宙NFT加密货币

2017-06-02 15:32:09

大数据数据可视化

2023-06-19 13:57:00

数据系统

2022-08-27 10:37:48

电子取证信息安全

2018-09-28 14:06:25

前端缓存后端

2022-09-22 09:00:46

CSS单位

2022-11-06 21:14:02

数据驱动架构数据

2019-04-08 09:15:56

2021-08-06 09:21:26

Linux内核 Coredump

2023-12-22 19:59:15

点赞
收藏

51CTO技术栈公众号