Python基础原理:FP-growth算法的构建

开发 后端 算法
和Apriori算法相比,FP-growth算法只需要对数据库进行两次遍历,从而高效发现频繁项集。对于搜索引擎公司而言,他们需要通过查看互联网上的用词,来找出经常在一块出现的词。因此就需要能够高效的发现频繁项集的方法,FP-growth算法就可以完成此重任。

和Apriori算法相比,FP-growth算法只需要对数据库进行两次遍历,从而高效发现频繁项集。对于搜索引擎公司而言,他们需要通过查看互联网上的用词,来找出经常在一块出现的词。因此就需要能够高效的发现频繁项集的方法,FP-growth算法就可以完成此重任。

FP-growth算法是基于Apriori原理的,通过将数据集存储在FP(Frequent Pattern)树上发现频繁项集。

FP-growth算法只需要对数据库进行两次扫描,而Apriori算法在求每个潜在的频繁项集时都需要扫描一次数据集,所以说FP-growth算法是高效的。

[[212909]]

FP算法发现频繁项集的过程是:

(1)构建FP树;

(2)从FP树中挖掘频繁项集

FP表示的是频繁模式,其通过链接来连接相似元素,被连起来的元素可看成是一个链表

将事务数据表中的各个事务对应的数据项,按照支持度排序后,把每个事务中的数据项按降序依次插入到一棵以 NULL为根节点的树中,同时在每个结点处记录该结点出现的支持度。

假设存在的一个事务数据样例为,构建FP树的步骤如下:

结合Apriori算法中最小支持度的阈值,在此将最小支持度定义为3,结合上表中的数据,那些不满足最小支持度要求的将不会出现在***的FP树中。

据此构建FP树,并采用一个头指针表来指向给定类型的***个实例,快速访问FP树中的所有元素,构建的带头指针的FP树如图:

结合绘制的带头指针表的FP树,对表中数据进行过滤,排序如下:

在对数据项过滤排序了之后,就可以构建FP树了,从NULL开始,向其中不断添加过滤排序后的频繁项集。过程可表示为:

这样,FP树对应的数据结构就建好了,现在就可以构建FP树了,FP树的构建函数参见Python源代码。

在运行上例之前还需要一个真正的数据集,结合之前的数据自定义数据集。这样就构建了FP树,接下来就是使用它来进行频繁项集的挖掘。

责任编辑:武晓燕 来源: 中科院计算所培训中心
相关推荐

2021-11-05 15:31:01

UbuntuLinux

2021-05-31 20:20:18

推荐算法短视频

2021-02-07 10:36:34

机器学习人工智能图表

2023-08-11 17:30:54

决策树机器学习算法

2021-09-23 12:59:19

iOS15数据游戏

2020-08-10 15:24:05

Snowflake算法开源

2022-04-21 16:00:29

元宇宙数字孪生物联网

2021-06-10 08:29:15

Rollup工具前端

2016-03-21 09:46:00

云堆栈云环境构建基础

2017-01-19 09:12:39

Apriori算法流程

2010-07-12 17:00:14

SNMP代理

2017-05-31 13:23:41

神经网络深度学习

2010-02-04 10:17:38

Android应用程序

2013-08-26 10:48:02

Reddit排名算法算法

2017-03-02 10:49:37

推荐算法原理实现

2021-06-10 10:26:03

PythonGUI软件包

2017-02-28 10:33:31

Python原理图解

2017-11-27 17:55:38

机器学习算法Boosting

2015-06-02 11:37:58

2023-03-03 08:06:37

点赞
收藏

51CTO技术栈公众号