Apriori算法报告(2)

2019-08-26 17:29

b) 固定支持度阈值改变数据量

固定支持度阈值(分别为0.1、0.2、0.3、0.4、0.5),置信度阈值为0.7,程序耗时(/ms)如表2:

表2:数据量对挖掘时间影响

记录条数/万 支持度0.1 支持度0.2 支持度0.3 支持度0.4 支持度0.5 20 1093 844 532 406 328 40 2188 1657 1065 813 703 60 3890 3016 1828 1468 1267 80 4422 3375 2031 1640 1422 100 5406 4203 2578 2047 1753 对应的折线图如图2所示:

固定支持度阈值改变数据量 600050004000300020001000020 406080100数据量/万 图2:数据量对挖掘时间的影响

支持度0.1支持度0.2支持度0.3支持度0.4支持度0.5从以上实验我们可以看出,程序耗时会随着支持度阈值的增大而减小,并且随着数据量的增大而增大。在关联规则挖掘过程的两个步骤中,依据支持度找出所有频繁项集往往是总体性能的瓶颈。当支持度阈值增大时,频繁集的个数将随之减少,生成新的频繁集所花费时间减少。而对于数据量来说,数据越多,则扫描数据库以及其他操作花费的时间也越多。

六、实验总结

1 Apriori算法的缺点

i.由频繁k-1项集进行自连接生成的候选频繁k项集数量巨大。

ii.在验证候选频繁k项集的时候需要对整个数据库进行扫描,非常耗时。 2网上提到的频集算法的几种优化方法

i. 基于划分的方法。 ii. 基于hash的方法。 iii. 基于采样的方法。 iiii. 减少交易的个数。

耗时/ms


Apriori算法报告(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:关于土地问题的一些基本概念、主要法律

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: