b) 固定支持度阈值改变数据量
固定支持度阈值(分别为0.1、0.2、0.3、0.4、0.5),置信度阈值为0.7,程序耗时(/ms)如表2:
表2:数据量对挖掘时间影响
记录条数/万 支持度0.1 支持度0.2 支持度0.3 支持度0.4 支持度0.5 20 1093 844 532 406 328 40 2188 1657 1065 813 703 60 3890 3016 1828 1468 1267 80 4422 3375 2031 1640 1422 100 5406 4203 2578 2047 1753 对应的折线图如图2所示:
固定支持度阈值改变数据量 600050004000300020001000020 406080100数据量/万 图2:数据量对挖掘时间的影响
支持度0.1支持度0.2支持度0.3支持度0.4支持度0.5从以上实验我们可以看出,程序耗时会随着支持度阈值的增大而减小,并且随着数据量的增大而增大。在关联规则挖掘过程的两个步骤中,依据支持度找出所有频繁项集往往是总体性能的瓶颈。当支持度阈值增大时,频繁集的个数将随之减少,生成新的频繁集所花费时间减少。而对于数据量来说,数据越多,则扫描数据库以及其他操作花费的时间也越多。
六、实验总结
1 Apriori算法的缺点
i.由频繁k-1项集进行自连接生成的候选频繁k项集数量巨大。
ii.在验证候选频繁k项集的时候需要对整个数据库进行扫描,非常耗时。 2网上提到的频集算法的几种优化方法
i. 基于划分的方法。 ii. 基于hash的方法。 iii. 基于采样的方法。 iiii. 减少交易的个数。
耗时/ms