A数据挖掘2.0 - 图文(4)

2019-03-16 13:52

因为d2（A3，B1）最小，所以，A3->B1

d2（B1，A1）=(9-3)2+(5-2)2=45 d2（B1，B1）=(9-9)2+(5-5)2=0 d2（B1，C1）=(9-2)2+(5-6)2=50

因为d2（B1，B1）最小，所以，B1->B1

d2（B2，A1）=(2-3)2+(4-2)2=5 d2（B2，B1）=(2-9)2+(4-5)2=50 d2（B2，C1）=(2-2)2+(4-6)2=4

因为d2（B2，C1）最小，所以，B2->C1

d2（B3，A1）=(3-3)2+(10-2)2=64 d2（B3，B1）=(3-9)2+(10-5)2=61 d2（B3，C1）=(3-2)2+(10-6)2=17

因为d2（B3，C1）最小，所以，B3->C1

d2（C1，A1）=(2-3)2+(6-2)2=17 d2（C1，B1）=(2-9)2+(6-5)2=50 d2（C1，C1）=(2-2)2+(6-6)2=0

因为d2（C1，C1）最小，所以，C1->C1

d2（C2，A1）=(9-3)2+(6-2)2=50 d2（C2，B1）=(9-9)2+(6-5)2=1 d2（C2，C1）=(9-2)2+(6-6)2=49

因为d2（C2，B1）最小，所以，C2->B1

d2（C3，A1）=(2-3)2+(2-2)2=1 d2（C3，B1）=(2-9)2+(2-5)2=58 d2（C3，C1）=(2-2)2+(2-6)2=16

因为d2（C3，A1）最小，所以，C3->A1 所以第一次循环结束时，

第一类：A1，C3，质心为O1（2.5, 2）

第二类：B1，A3，C2, 质心为O2（9, 5.67）第三类：C1，A2，B2，B3, 质心为O3（2.5, 7.25） (2) 第二次循环结束时，

第一类：A1，B2，C3,质心为O1（2.33,3）, 第二类：A3，B1，C2，质心为O2（8.67,5.67），第三类：A2，B3,C1，质心为O3（2.67,8.33）。第三次循环结束时，

第一类：A1，B2，C3,质心为O1（2.33,3）, 第二类：A3，B1，C2，质心为O2（8.67,5.67），第三类：A2，B3,C1，质心为O3（2.67,8.33）。

结果与第二次循环结束的结果一样，故最后求得的结果为：第一类：A1，B2，C3,质心为O1（2.33,3）, 第二类：A3，B1，C2，质心为O2（8.67,5.67），第三类：A2，B3,C1，质心为O3（2.67,8.33）。

四、给定数据集S，试根据前7个样本构造ID3决策树模型，并预测第8个样本的类别？

数据集S

Sample S1 S2 S3 S4 S5 S6 S7 S8 A a0 a0 a0 a1 a1 a1 a2 a2 B b0 b1 b2 b0 b1 b2 b0 b1 C c1 c1 c1 c2 c1 c2 c2

解：现计算每个属性的信息增益。对给定样本分类所需的期望信息为：

E(S)= – (3/7)log2 (3/7)–(4/7)log2 (4/7)=0.5239+0.4613=0.9852 Values(A)={a0, a1, a2}，

Sa0 ={S1, S2, S3}，∣Sa0∣=3，其中3个都属于类C1，故有： E(Sa0)= – (5/5)log2(5/5) –(0/5)log2(0/5)=0

Sa1= {S4, S5, S6}，∣Sa1∣=3，其中，1个属于c1,2个属于c2，故有

E(Sa1)= – (1/3)log2(1/3) – (2/3)log2(2/3)=0.5283+0.3900=0.9183

同理，E(Sa2)= – (1/1)log2(1/1)–(0/1)log2(0/1)=0

因此属性A的期望熵为：E(S,A)=(3/7)E(Sa0)+ (3/7)E(Sa1)+(1/7)E(Sa2)=0.3936 故A的信息增益为：

Gain(S, A)= E(S) – E(S, A) =0. 9852– 0. 3936=0.5916

同理：

Values(B)={b0, b1, b2}，

Sb0 ={S1, S4, S7}，∣Sb0∣=3，其中，1个属于c1,2个属于c2，故有

E(Sb0)= – (1/3)log2(1/3) – (2/3)log2(2/3)=0.5283+0.3900=0.9183

Sb1= {S2, S5}，∣Sb1∣=2，其中2个都属于类C1, 故有

E(Sb1)= – (2/2)log2(2/2) –(0/2)log2(0/2)=0

同理，E(Sb2)= – (1/2)log2(1/2) – (1/2)log2(1/2)=1 因此属性B的期望熵为：

E(S, B)=(3/7)E(Sb0)+ (2/7)E(Sb1)+(2/7)E(Sb2)=0.3936+0+0.2857=0.6793 故B的信息增益为：

Gain(S,B)= E(S) – E(S, B) =0. 9852–0. 6793 =0.3059

故A的信息增益最大，令属性A为根节点的测试属性，并对应每个值（a0,,a1,a2）在根节点下建立分支，形成部分决策树： A a0 a1 a2

S1,S2,S3 S4,S5,S6 S7 对于A=a0和A=a2节点，它们对应的属性唯一，不需进一步讨论，而对于A=a1节点，需要进一步讨论。由于只有B属性可供讨论，因此依据不同的取值，可得最终的决策树： A a0 a1 a2

c1 B c2

b0 b1 b2 c2 c1 c2

根据以上决策树，可知第8个样本S8的类别为c2.

五、设论域

U={x1, x2 ,?, x6}，属性集A=C?D，条件属性集C={a, b, c}，决策属性集

D={d}，决策表如下：

决策表

x1 x2 x3 x4 x5 x6 a 1 1 1 1 2 2 b 0 0 2 2 1 1 c 2 2 0 2 0 1 d 1 1 2 0 2 2

问：决策表是否为一致决策表？利用分辨矩阵对决策表进行约简。

解：由决策表可知，

U/C={{x1, x2}, {x3}, {x4}, {x5}, {x6}} U/D={{x1, x2}, {x3, x5, x6}, {x4}} POSC(D)={x1, x2, x3, x4, x5, x6}

因为k=| POSC(D)|/|U|=1，故该决策表为一致决策表。该决策表的分辨矩阵为6阶方阵，其元素为 1 2 3 1 2 3 4 5 6 {b,c} {b} {a,b,c} {a,b,c} {b,c} {b} {a,b,c} {a,b,c} {c} 4 {a,b,c} {a,b,c} 5 6 所以决策表的分辨函数为：

ρ=(b∨c)(b∨c)(b)(b)(c)(a∨b∨c)(a∨b∨c)(a∨b∨c)(a∨b∨c)(a∨b∨c)(a∨b∨c)=bc 故C的D约简为{b,c},C的D核为{b,c},约简的决策表为： U x1 x2 x3 x4 x5 x6

b 0 0 2 2 1 1 c 2 2 0 2 0 1 d 1 1 2 0 2 2 1. 假设数据挖掘的任务是将如下的8个点（用（x,y）代表位置）聚类为3个类：X1(2,10)、

X2(2,5)、X3(8,4)、X4(5,8)、X5(7,5)、X6(6,4)、X7(1,2)、X8(4,9)，距离选择欧几里德距离。假设初始选择X1(2,10)、X4(5,8)、X7(1,2)为每个聚类的中心，请用 K_means算法来计算：（1）在第一次循环执行后的3个聚类中心；

答：第一次迭代：中心点1：X1(2，10)，2：X4(5，8)，X7(1，2)

1 2 3 X1 0 9+4 1+64 X2 25 9+9 1+9 X3 36+36 9+16 53 X4 9+4 0 16+36 X5 25+25 4+9 45 X6 16+36 1+16 29 X7 1+64 16+36 0 X8 4+1 1+1 58 答案：在第一次循环执行后的3个聚类中心： 1：X1(2，10)

2：X3，X4，X5，X6，X8 （6，6） 3：X2，X7 （1.5，3.5）

（2）经过两次循环后，最后的3个族分别是什么？第二次迭代： d2 X1 X2 X3 X4 X5 X6 X7 X8 1 0 25 36+36 9+4 25+25 16+36 1+64 4+1 2 32 17 8 5 2 4 41 1+1 3 52+6.52 52+1.52 6.52+0.52 3.52+4.52 5.52+1.52 4.52+0.52 0.52+1.52 2.52+5.52 答案：1：X1，X8 (3.5，9.5)

2：X3，X4，X5，X6 （6.5，5.25） 3：X2，X7 （1.5，3.5）

2. 数据库有4个事务。设min_sup=60%,min_conf=80%。 TID T100 T200 T300 T400 答：

(a)Apriori算法：

{K} 1 ? {A} 4 ? {A,B} 4 ? {A,B,D} 3 {A} 4 {B} 4 {A,D} 3 {B} 4 {D} 3 {B,D} 3 {D} 3 {C} 2

data 6/6/2007 6/6/2007 6/7/2007 6/10/2007 Transaction K,A,D,B D,A,C,E,B C,A,B,E B,A,D a.使用Apriori算法找出频繁项集，并写出具体过程。

共7页:

A数据挖掘2.0 - 图文(4).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档