详解数据挖掘的技术、工具与用例

译文
大数据 数据分析
本文将和您讨论数据挖掘的基本概念、基本步骤、主要技术、优势、工具、以及典型用例。

[[400781]]

【51CTO.com快译】近十年来,随着计算机处理能力和速度的显著提高,我们逐渐能够从繁琐且耗时的手动式数据分析,转变成为快速便捷的自动化方法。面对被收集到的数据集日趋增长,能够发现的信息相关性也日益复杂,目前各大零售商、银行、制造商、医疗保健公司,都在通过数据挖掘技术,在发现价格变化、促销策略、用户偏好、消费习惯、以及支付风险等方面,针对业务模型、收入、运营、以及客户关系产生深远的影响。不过,随着各个公司能够获取数据能力的增强,它们会碰到如何充分利用好海量的结构化与非结构化数据,促进业务增长等新问题。而这些往往需要数据科学家的协助与实现。

什么是数据挖掘?

从业务角度而言,我们将分析大数据,发现商业智能,协助公司解决现实问题,减轻风险,以及抓住新机遇的过程,统称为数据挖掘。而在计算机科学中,它是在大量数据中,发现实用的模式、及其相互关系的过程。它通常涉及到将统计学、人工智能(AI)工具、以及数据库管理相结合,通过对大型数据集予以分析,查找潜藏的异常情况,发现数据模式与相关性,将原始数据转化为实用信息,进而实现结果预测。

数据挖掘过程的基本步骤

1. 收集数据,将其加载到数据仓库中。

2. 在本地服务器或云端,存储与管理数据。

3. 业务分析师、管理团队和IT专业人员通过访问数据,以确定该如何规整数据。

4. 应用软件根据特定的需求,对数据进行排序。

5. 以图形或表格等形式,向最终用户共享或展示数据。

为了及时获取可靠的分析结果,我们通常需要通过如下六个步骤,对数据进行结构化:

1. 业务理解

全面了解当前的业务状况、项目的主要目标、以及成功的标准等方面。

2. 数据理解

确定解决问题所需的数据,并从所有可用来源收集数据。

3. 数据准备

为满足业务需求,准备适当的数据格式,防范数据出现丢失或重复等质量问题。

4. 建模

使用算法,识别出数据中的潜在模式。

5. 评估

评估给定模型所产生的效果与业务目标之间的差距。为了获得最佳结果,我们通常需要一个迭代的过程,来找到最佳算法。

6. 部署

将输出的结果提供给决策者。

数据挖掘的技术

目前,企业可以使用如下多种数据挖掘技术,来从原始数据中获取有价值的洞见:

1.模式跟踪

模式跟踪是数据挖掘的一项基本技术。它旨在通过识别和监视数据中的趋势或模式,以对业务成果形成智能推断。例如,企业可以用它来识别销售数据的发展趋势。如果发现某种产品在某些特定人群中的销售情况,要好于其他产品,那么该企业便可以据此来创建类似的产品或服务,甚至只是简单地为此类人群增加原始产品的库存。

2.数据清理和准备

作为数据挖掘过程中的一个重要环节,我们必须对原始数据进行清理和格式化,以用于各种后续的分析。具体而言,数据的清理和准备工作包含了:数据建模,转换,迁移,集成和聚合等各种元素。这是理解数据基本特征和属性,进而确定其最佳用途的必要步骤。

3.分类

基于分类的数据挖掘技术,主要涉及到分析各种类型数据之间的关联属性。一旦确定了数据类型的关键特征,企业便可以对它们进行分类。企业可以据此判定是该保护,还是该删除某些个人身份信息。

4.异常值(Outlier)检测

异常值检测可被用于识别数据集中的异常情况。企业在发现数据中异常值后,可以通过防范此类事件的发生,以顺利实现业务目标。例如,信用卡系统在某个特定时段出现使用和交易的高峰,那么企业便可以通过分析了解到,可能是由于“大促”所致,并为将来的此类活动做好资源上的事先部署与准备。

5.关联

关联是一种与统计学相关的数据挖掘技术。它旨在建立某些数据与其他数据、或数据驱动型事件的联系。它与机器学习中的“共现(co-occurrence)”概念相似,即:某个基于数据的事件的发生概率,是由另一个事件的存在性所标识的。例如,用户购买汉堡这一行为,往往会伴随着购买薯片的可能性。两者之间有着较强的关联性,却又不是绝对的伴生关系。

6.聚类

聚类是一种依靠可视化方法,来理解数据的分析技术。聚类机制使用图形或颜色,来显示数据在不同类别指标下的分布情况。通过图形式的聚类分析,用户可以直观地获悉数据随业务目标发展的趋势。

7.回归

作为一种简单的白盒技术,回归技术可被用于识别出,数据集中变量之间的因果关系、或相关性质。它在数据建模和预测等方面非常实用。

8.顺序模式

此类数据挖掘技术关注于发现和挖掘一系列顺序发生的事件,因此常被用于事务性的数据环境中。例如,它可以预测某个顾客在最初购买了某种样式的鞋后,最有可能去购买哪些相配的服装。顺序模式可以帮助企业向客户推荐并销售其他增值项产品。

9.预测

预测分析是指在当前或历史的数据中,对发现到的模式进行扩展,以便企业根据现有数据,洞察到即将发生的趋势。我们既可以使用简单的算法,又可以运用高级的机器学习和人工智能来实现预测分析。

10.决策树

作为一种特定类型的预测模型,决策树可以让企业有效地提取所需的数据。从技术上说,决策树属于一种极其简单的“白盒”类机器学习技术。而从效果上说,决策树能够使用户清楚地了解到,输入数据是如何影响结果的。当有多个决策树模型被组合在一起时,它们将创建所谓随机森林的预测分析模型。由于输入并不总能被轻易地猜测其输出结果,因此复杂的随机森林模型常被视为“黑盒”类机器学习技术。当然,在大多数情况下,相比单纯地使用决策树,集成建模的基本形式要更为准确一些。

11.神经网络

作为一种特定类型的机器学习模型,神经网络通常能够与AI、以及深度学习协同使用。由于该网络具有类似于人脑中神经元的不同功能层,因此它被誉为目前最精确的机器学习模型之一。

12.可视化

数据可视化可以在数据挖掘的过程中,为用户提供可查看到的数据视图。目前,数据可视化可用于实时数据流的传输场景中,以不同的颜色、动态地展示数据中的不同趋势和模式。企业不仅能够使用统计模型中的数值结果,还可以用基于不同指标的仪表板,来可视化地突显数据中的模式。

13.统计技术

作为数据挖掘过程的核心,统计技术基于统计的概念,利用不同的分析模型,产生适用于特定业务目标的数值。例如,神经网络可以使用基于不同权重和度量的复杂统计信息,来确定被输入到图像识别系统中的图片上,到底是狗、还是猫。

14.长时记忆处理(Long-term Memory Processing)

长时记忆处理是指能够长时间分析数据的能力。那些存储在数据仓库中的历史数据可被用于此目的。企业需要通过长时分析,来识别出原本难以检测到的模式。例如,通过分析过去几年的人员流失情况,企业可以找到可能导致账务恶化的蛛丝马迹。

15.数据仓库

从传统上说,数据仓库是将结构化的数据,存储在关系型数据库管理系统中,以便对其进行商业智能化分析、报告,并提供基本的仪表板显示。目前,业界有基于云端的数据仓库、以及半结构化和非结构化的数据仓库(如Hadoop)。过去,数据仓库主要处理的是历史数据。如今,它也能够利用各种现代化技术与方法,实时地提供对于数据的深入分析。

16.机器学习与人工智能

诸如深度学习之类的高级机器学习形式,在处理大规模的数据时,可以提供较高准确性的预测。因此,它们可以被用在实施AI过程中的数据处理,其中包括:计算机视觉、语音识别、以及使用自然语言处理的复杂文本分析等。此类数据挖掘技术有助于识别半结构化和非结构化的数据价值。

数据挖掘的重要性

  • 筛选并滤除数据中各种混杂与重复性“噪声”。
  • 识别相关数据,并用其评估可能出现的结果。
  • 加快企业做出明智决策的过程。

数据挖掘的优势

  • 可协助企业获取基于知识(knowledge-based)的信息。
  • 可以被部署并实施在新的或既有的平台上。
  • 可协助企业在生产和运营中按需进行调整。
  • 促进趋势和行为的自动化预测,以及隐藏模式的自动发现。
  • 相比其他统计数据类型的应用,更加经济高效。
  • 有助于改进决策的过程。
  • 作为一个快速的过程,可以让用户轻松地在更少的时间内分析大量数据。

十种数据挖掘工具

由于数据挖掘过程是在数据被获取后立即执行的,因此找到那些能够针对不同数据结构进行分类、分析与挖掘的工具,是至关重要的。下面,让我们来讨论十种业界常用的挖掘工具。

1. Oracle Data Mining

Oracle Data Mining(也称为ODM)是Oracle高级分析数据库(Advanced Analytics Database)的一个模块。该数据挖掘工具既能够方便数据分析师生成详细的数据见解,并做出预测;又可以协助识别到交叉销售(Cross-sells)的机会,开发出用户画像(profiles),并最终预测用户的行为。

2. Rapid Miner

由Java语言编写的Rapid Miner,是目前最好的预测分析系统之一。它能够为深度学习、文本挖掘、机器学习和预测分析,提供一套集成化的环境。其系列产品可以被用来构建全新的数据挖掘过程,以及执行预测性的设置分析。

3. Orange Data Mining

作为可用于机器学习和数据挖掘的完美软件套件,Orange Data Mining通过基于组件的方式,来协助实现数据的可视化。它的组件常被称为“widgets”,其中包括各种预处理、数据可视化、算法评估、以及预测建模等部件。它们可以协助实现:显示数据表,选择不同的功能,读取数据,训练预测变量,比较学习算法,以及可视化数据元素等服务。

4. Weka

由Java语言编写的Weka,通过提供GUI,以方便用户轻松地访问其所有功能。开发者可以在其图形化的界面中执行诸如:预处理、分类、回归、聚类、以及可视化等各种数据挖掘任务。而作为一款开源的机器学习软件,Weka为各种任务内置并提供了大量可用于数据挖掘的机器学习算法。因此,您无需编写任何代码,即可快速地验证自己的数据猜测,并部署出相应的模型。

5. KNIME

基于模块化数据管道的KNIME,是由KNIME AG开发的最佳数据分析与报告的集成化平台。它不但免费开源,而且带有各种机器学习与数据挖掘的相关组件。其直观的界面,可方便用户创建从建模到生产环境的端到端式数据科学工作流。作为一个通用的可扩展平台,KNIME带有强大的扩展和集成功能,能够通过各种高级算法,来处理复杂的数据类型。由于KNIME的不同预构建组件,可以在无需输入任何代码的情况下,实现快速建模。因此,数据科学家可以用它来创建诸如:金融行业常用的信用评分系统等,以实现业务智能与分析的应用与服务。

6. Sisense

作为一款非常实用的业务智能(BI)软件,Sisense能够根据不同企业的报告目的,开展数据处理与挖掘,并能够对大型或分散的数据集,采用仪表板的形式,予以分析和可视化。它可以将各种来源的数据通过组合,构建出公共存储库,进而生成完善且丰富的数据报告,以供各个部门享用。Sisense通过提供具有拖放功能的小部件,以方便非技术类型的用户设计出饼图、折线图、以及条状图。用户只需单击,便可查看到详细信息和数据全貌。

7. Dundas

作为一款出色的仪表板、报告和数据分析类工具,Dundas可以通过快速的集成方式,提供美观的表格、图表和图形,不受限制的数据转换模式,以及可靠的洞见。Dundas BI能够以特定的方式,将数据放入已定义明确的结构中,以简化用户的后续处理。同时,它通过各种关系型方法,方便用户构建多维的分析,并关注那些业务关键性(business-critical)的事项。此外,由它生成的报告,可以在降低成本的同时,消除对于其他附加软件的依赖。

8. Intetsoft

作为一种分析仪表板和报告类工具,Intetsoft可以提供针对数据报告与视图的迭代式开发,并生成像素级的完美报告。它能够快速、灵活地转换各种数据来源。

9. Qlik

作为一种数据挖掘和可视化工具,Qlik既能够提供仪表板,又能够支持多种数据源和文件类型。此外,它的丰富功能还包括:通过拖放界面可实现灵活的交互式数据可视化,即时响应各种交互和更改,支持多种数据源与文件类型,可轻松、安全地保护各种设备上的数据和内容,允许以集中式共享应用与分析的故事线。

10. MonkeyLearn

作为一个专门研究文本挖掘的机器学习平台,MonkeyLearn通过友好的用户界面,实现了与其他工具的轻松集成,并通过对数据的实时挖掘,基于预训练的文本挖掘模型,开展目标情感分析,或通过构建定制化的解决方案,以满足更为具体的业务需求。从检测主题、情感和意图,到提取关键字和命名实体,MonkeyLearn能够支持各种数据挖掘任务。此外,MonkeyLearn的文本挖掘功能还可以被用于,在客户支持的场景中,自动进行任务单的标记与路由,自动检测社交媒体中的负面反馈,以及提供细粒度的洞见,进而做出更好的决策。

数据挖掘的典型用例

下面,我们通过各个行业中的典型用例,来讨论数据挖掘是如何改变业务策略设计,以及预测业务走向的。

市场

数据挖掘可用于检索与日俱增的数据库,并改善当前的市场细分。通过分析诸如客户年龄、性别、口味等参数之间的关系,我们可以预测其行为,以推出个性化的用户忠诚度计划。而在市场营销活动中,数据挖掘还可以预测哪些用户可能会取消已订阅的服务,获悉他们的搜索偏好,进而为实现更高的转化率,而定制邮件内容与列表。

银行业

为了更好地获悉市场上存在的风险,银行业可以将数据挖掘应用到信用等级、以及智能反欺诈系统中,以分析卡密交易、购买模式、以及客户财务数据等方面。通过对银行APP的数据挖掘,它们还可以更深入地了解用户的在线习惯和偏好信息,研究销售渠道的绩效,以及合规管理的义务,进而提高其营销活动的回报。

教育

教育工作者能够在访问学生数据的基础上,通过数据挖掘,来预测他们的知识掌握水平,并针对某些成绩较差的学生,提供额外的补习与关注。

电子商务

诸如亚马逊之类的知名电商平台,通过使用数据挖掘技术,不但可以实现推荐销售(Up-sells)和交叉销售,还能够吸引更多的顾客访问其平台。

零售

超市既可以使用联合采购的模式(joint purchasing pattern),来识别各个产品之间的关联,进而决定如何将它们放置在过道和货架上;又可以通过数据挖掘,在结账队列中检测出,哪些商品最受客户的喜爱,以便提高进货量。

服务供应商

手机和公用事业等服务提供商可以使用数据挖掘技术,来分析账单的详细信息,与客户服务的互动,并根据投诉的历史记录,为每个客户分配一个概率分值,以便提供定制化的激励计划,或者判断其流失的可能性。

医药业

通过数据挖掘,医院和医生可以掌握患者的全面信息(包括病历、体检报告和治疗模式等),并据此制定出更加准确且有效的诊疗方案。通过识别风险,预测人群中的疾病传播、以及预测住院时间,他们还可以更具成本效益地管理公共卫生资源。而医疗机构则能够通过数据挖掘的优势,及时发现各种欺诈和违规行为,加强与患者之间的联系,进而更好地满足他们的需求。

保险

保险公司可以通过数据挖掘,来根据盈利目的对其产品进行综合定价,进而推广给新、老客户。

制造业

借助数据挖掘,制造商可以预测其生产资源的损耗速度,并能通过预防性的维护,最大程度地减少停机时间。

犯罪调查

通过数据挖掘与分析,治安机构可以预测犯罪多发的地点与时段,提前部署警力。

电视和广播

凭借着针对网络应用和实时数据的挖掘,在线电视(如IPTV)和广播可以实时收集和分析来自不同频道与节目的观看与收听信息,实时了解观众与听众的兴趣爱好,在更好地了解其习惯与行为的基础上,更准确地定位潜在客户,并实现个性化的推送。

不同行业使用数据挖掘的成功案例:

  • 拜耳帮助农民实现可持续的粮食生产

在农业耕种过程中,那些破坏农作物的杂草一直是困扰农民的难题。虽然农民们可以使用窄谱除草剂,在尽可能减少不良副作用的前提下,有效地杀死田间的杂草。但是,他们首先需要准确地识别出田间杂草的类型。拜耳数字农业使用Talend实时大数据,开发出了WEEDSCOUT应用。在农民们完成了免费下载与安装后,该APP使用机器学习和人工智能的方式,将拜耳数据库中的杂草图片,与农民拍摄到的杂草照片进行匹配,以便为他们的选种,作物保护产品,以及收割时机等环节,给出更加准确地预测与建议。

  • 法航荷航满足客户旅行的偏好要求

该航空公司使用数据挖掘技术,通过将旅行搜索、预订、以及航班运营中的数据,与互联网、社交媒体、呼叫中心、以及候机厅的互动相整合,进而创建了360度的客户视图。它们凭借着这种深刻的客户洞察力,创建了个性化的旅行体验。

  • Groupon协调营销活动

每天,Groupon都需要实时处理超过TB量级的原始数据,并将此类信息存储在各种数据库系统之中。而数据挖掘技术使得Groupon能够实时地分析海量的客户数据,将营销活动与客户的偏好更加紧密地结合起来,并协助公司识别出业务发展的趋势。

  • 达美乐打造完美的购买体验

作为世界上最大的比萨公司,达美乐通过各种渠道(包括:短信、社交媒体、以及Amazon Echo)收集着85,000个结构化和非结构化的数据源,其中包括全球销售点系统和26个供应链中心。这种洞察能力在提高其业务绩效的同时,在各个销售点之间实现一对一的客户购买体验。

总的说来,您可以根据自己的实际需求,使用数据挖掘技术,来解决诸如:增加营收,了解客户群的特征和偏好,获取新的客户,改善交叉销售和推荐销售,留存客户并提高忠诚度,通过营销活动来增加投资回报率,检测与发现欺诈行为,识别信贷风险,监控运营绩效等业务问题与需求。

原文标题:Data Mining: Use Cases, Benefits, and Tools,作者:Ekaterina Novoseltseva

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

 

责任编辑:华轩 来源: 51CTO
相关推荐

2015-09-23 09:28:24

2022-01-11 18:21:11

存储技术数据

2009-01-15 10:28:35

XMLWeb数据挖掘

2012-08-09 09:57:54

K-means

2011-04-19 11:02:57

数据库分页

2010-06-08 17:01:34

UML用例图

2018-04-23 11:11:52

数据挖掘机器学习Python

2019-11-21 14:01:37

Python数据挖掘机器学习

2020-03-08 16:45:58

数据挖掘学习数据量

2010-07-08 11:27:00

UML用例建模

2010-02-04 11:15:12

数据交换技术

2020-07-28 07:55:33

Python开发工具

2013-04-25 11:52:34

数据

2009-01-19 16:44:31

数据挖掘沃尔玛应用

2011-05-11 10:13:16

数据库加密脱密

2010-06-30 11:08:09

UML用例建模

2011-05-19 11:00:44

数据库加密

2016-08-18 00:35:39

Pythonwitte数据采集

2021-04-20 09:00:00

数据分析数据挖掘工具

2022-11-24 09:19:53

AI数据挖掘
点赞
收藏

51CTO技术栈公众号