使用深度学习模型生成合成数据

译文
大数据 数据仓库
合成数据仓库(SDV)是一个生成合成数据的生态系统,允许用户通过了解单表、多表、文本和时间序列数据集,轻松创建合成数据。SDV使用概率图形模型和深度学习技术来生成合成数据。

译者 | 布加迪

审校 | 孙淑娟

不可否认,21世纪最大的资源是数据——数据通常被称为第四代工业;只有公司采用这种模式收集数据,并利用数据做出明智决策的公司,才会蓬勃发展。但是收集数据和进行实验并不像听起来那么简单,大多数中等公司没有存储可扩展数据的基础设施或资源。在大多数情况下,当您必须在没有可扩展数据的情况下测试机器学习/人工智能模型时,我们必须使用机器学习生成合成数据。在一些用例中,公司之所以生成合成数据,是由于它希望对数据保密。

使用合成数据仓库生成合成数据

合成数据仓库(SDV)是一个生成合成数据的生态系统,允许用户通过了解单表、多表、文本和时间序列数据集,轻松创建合成数据。SDV使用概率图形模型和深度学习技术来生成合成数据。

在我们的场景中,我们将使用高斯连接函数(Gaussian Coupla)来生成合成数据——高斯连接函数是一种方法,我们通过使用协方差矩阵来生成多变量随机变量。

下面是安装和导入高斯连接函数实例的代码:

图片

为了使实例拟合高斯连接函数,不妨将通用数据集导入到笔记本(notebook),我们不妨从kaggle下载保险索赔数据集。该数据集具有分类、连续和自由的文本数据,因此我们可以看到SDV库的有效性/范围。

图片

我们可以从上图中看到,该保险索赔数据的数据类型有object、int64和float64这几种。

将数据集拟合到高斯连接函数实例中,生成10万个样本:

图片

不妨为生成的合成变量检查数据类型:

图片

只需观察原始数据和生成的合成数据之间的数据类型;它们完全匹配,这表明SDV运行起来有多高效。

不妨更进一步,使用table_evaluator库来比较真实数据集和合成数据集:

图片

真实数据和虚假数据的对数均值和标准偏差比较

图片

真实数据和虚假数据变量比较的示意图:

我已经加入了一些选定变量的视觉元素——为44个变量生成的完整报告相当全面,这里仅显示部分。

图片


图片

我们从上面图表中可以看到SDV生成分类和规范化连续变量的功能有多强大。

咱们还是编程吧,生成合成数据,并使用它训练机器学习模型及更多!

原文链接:https://omkargawade.medium.com/generating-synthetic-data-using-deep-learning-model-5066aed80e30

责任编辑:武晓燕 来源: 51CTO技术栈
相关推荐

2022-08-11 08:00:00

机器学习合成数据深度学习

2016-08-23 13:35:22

MVCEFNuGet

2023-08-01 15:46:18

数据

2024-04-18 08:38:15

LLM数据训练模型

2009-12-30 14:12:53

ADO.NET Fra

2022-07-11 08:00:00

开源工具DoppelGANg

2022-06-20 11:28:20

人工智能数据生成器

2022-07-22 08:00:00

深度学习数据机器学习

2024-01-16 14:23:32

大数据人工智能AI

2022-08-23 14:56:04

合成数据数据

2018-08-23 04:26:54

合成数据机器学习数据集

2023-01-09 08:00:00

迁移学习机器学习数据集

2019-10-23 19:33:24

数据科学保护数据匿名化

2022-11-08 07:40:55

2021-06-29 15:29:33

人工智能合成数据

2017-07-14 10:35:06

2022-06-13 11:18:08

合成数据AIML

2022-06-13 15:28:42

人工智能机器学习数据

2022-07-12 10:48:27

Python数据日报命令
点赞
收藏

51CTO技术栈公众号