* 划分为等频箱:- 箱 1: 4, 8, 9, 15-箱2: 21, 21, 24, 25-箱3: 26, 28, 29,
34
* 用箱均值光滑:-箱1: 9, 9, 9, 9 -箱2: 23, 23, 23, 23 -箱3: 29, 29, 29,
29
* 用箱边界光滑:- Bin 1: 4, 4, 4, 15- Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26,
26, 34
2)回归,让数据适合一个函数(如回归函数)来平滑数据。
3)聚类 聚类将相似的值组织成群或类,落在群或类外的值就是孤立点,也
就是噪声数据;
不一致数据:许多情况下,所记录的数据可能不一致,这是多方面的因素,比如,由于编码或表示不同,在数据集成的时候,就有可能造成不一致。 规范化的方法:
1)最小—最大规范化 :对原始数据进行变换。假定A的属性最大值和最小值分别是MAX,MIX ,设A中的任一值是V,则V的值经过规范化后则为:V’=(V-MIN)/(MAX-MIX)*(NEW_max-NEW_min)+NEW_min 其中规范化后的区间是[NEW_min, NEW_max]
例如:income的最大,最小值分别为9000,2000,则将它的值映射到[0,1]时,若income的值6800规范后为: (6800-2000)/(9000-2000)*(1-0)+0=0.686 2)z-score规范化(或零—均值规范化):就是属性A的值基于A的平均值和标准差规范。假设A的值V规范后为V’,则公式为: V’=(V-AVG(A))/A的标准差
假设属性income的平均值和方差分别为:5400,1600,则值7360的规范后的值为: (7360-5400)/1600=1。225
3)小数定标化:就是科学表示法的形式,将属性的值映射到[0,1]之间。将小数点的位置规范化,小数点的移动根据属性的最大绝对值。如将A属性的值35规范后为:35/100=0.35
属性构造:是由给定的属性构造和添加新的属性,以有利于挖掘。比如,我们根据属性heigh 和width可以构造 area属性。通过这种组合属性,属性构造可以发现关于数据属性间联系的丢失信息,这对知识发现有用的。
数值归约(1)----直方图:数值归约:通过用替代的,较小的数据表示形式来减少数据量。
直方图:使用分箱技术近似数据分布,
数值归约(2)----聚类
数据挖掘的各种算法
掌握每种算法的基本思想,优缺点,是否是有监督的挖掘方法等? 一、 Apriori算法的基本思想,如何采用Apriori来挖掘频繁模式 需要了解的基础知识:
关联规则判断标准
1、支持度sup(.):表示在购物篮分析中同时包含关联规则左右两边物品的交易次数百分比,即支持这个规则的交易的次数百分比。
规则X?Y在交易数据集D中的支持度是对关联规则重要性的衡量,反映关联
是否是普遍存在的规律,说明这条规则在所有交易中有多大的代表性。即在所有交易中X与Y同时出现的频率记为:support(X?Y)= P(XY)
2、置信度confidence(.):是指购物篮分析中有了左边商品,同时又有右边商品的交易次数百分比,也就是说在所有的购买了左边商品的交易中,同时又购买了右边商品的交易概率。 ? 连接:用Lk-1自连接得到Ck
? 修剪:一个k-项集,如果他的一个k-1项集(他的子集 )不是频繁的,那他本身也不可能是频繁的。 Apriori 算法:使用候选产生频繁项集
例1:假设最小支持度为30%,最小置信度为60%。
第一步:产生频繁1-项集(即满足最小支持度要求);第二步:再次扫描数据库,产生后候选2-项集:
第三步:产生频繁3-项集; 第四集:从满足条件的频繁2-项集中构造关联规则:
第五步:重复第二步,产生候选3-项集;