Apriori算法报告(2)

2019-08-26 17:29

b) 固定支持度阈值改变数据量

固定支持度阈值（分别为0.1、0.2、0.3、0.4、0.5），置信度阈值为0.7，程序耗时（/ms）如表2：

表2：数据量对挖掘时间影响

记录条数/万支持度0.1 支持度0.2 支持度0.3 支持度0.4 支持度0.5 20 1093 844 532 406 328 40 2188 1657 1065 813 703 60 3890 3016 1828 1468 1267 80 4422 3375 2031 1640 1422 100 5406 4203 2578 2047 1753 对应的折线图如图2所示：

固定支持度阈值改变数据量 600050004000300020001000020 406080100数据量/万图2：数据量对挖掘时间的影响

支持度0.1支持度0.2支持度0.3支持度0.4支持度0.5从以上实验我们可以看出，程序耗时会随着支持度阈值的增大而减小，并且随着数据量的增大而增大。在关联规则挖掘过程的两个步骤中，依据支持度找出所有频繁项集往往是总体性能的瓶颈。当支持度阈值增大时，频繁集的个数将随之减少，生成新的频繁集所花费时间减少。而对于数据量来说，数据越多，则扫描数据库以及其他操作花费的时间也越多。

六、实验总结

1 Apriori算法的缺点

i.由频繁k-1项集进行自连接生成的候选频繁k项集数量巨大。

ii.在验证候选频繁k项集的时候需要对整个数据库进行扫描，非常耗时。 2网上提到的频集算法的几种优化方法

i. 基于划分的方法。 ii. 基于hash的方法。 iii. 基于采样的方法。 iiii. 减少交易的个数。

耗时/ms

共2页:

Apriori算法报告(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档