题一: 一阶项目集 支持度 a 5 b 4 c 2 d 5 e 3 f 4 g 6 一阶频繁集 支持度 a 5 b 4 d 5 f 4 g 6 二阶候选集 支持度 ab 3 ad 4 af 2 ag 5 bd 3 bf 1 bg 3 df 3 dg 4 fg 3 二阶频繁集 支持度 ad 4 ag 5 dg 4 三阶候选集 支持度 adg 4 三阶频繁集 支持度 adg 4
题二
Distance(G,A)2=0.1; Distance(G,B)2=0.03; Distance(G,C)2=0.11 Distance(G,D)2=0.12; Distance(G,E)2=0.16; Distance(G,F)2=0.05 G的三个最近的邻居为B,F,A,因此G的分类为湖泊水
Distance(H,A)2=0.03; Distance(H,B)2=0.18; Distance(H,C)2=0.22 Distance(H,D)2=0.03; Distance(H,E)2=0.21; Distance(H,F)2=0.16 H的三个最近的邻居为A,D,F,因此H的分类为冰川水 题三
首先计算各属性的信息增益 Gain(Ca+浓度)=0
Gain(Mg+浓度)=0.185 Gain(Na+浓度)=0 Gain(Cl-浓度)=0.32
选择 Cl-浓度作为根节点 Cl-浓度 高 低 冰川水 ?
计算各属性的信息增益 Gain(Ca+浓度)=0 Gain(Mg+浓度)=0.45 Gain(Na+浓度)=0.24 选择Mg+浓度作为节点 Cl-浓度 高 低 Mg+浓度 冰川水 低 高 计算各属性的信息增益 湖泊水 ? Gain(Ca+浓度)=0.24
Gain(Na+浓度)=0.91 Cl-浓度 高 低 冰川水 Mg+浓度 低 高
湖泊水 Na+浓度
低 高 湖泊水 冰川水 题四
P(Ca+浓度=低,Mg+浓度=高,Na+浓度=高,Cl-浓度=低 | 类型=冰川水)*P(冰川水)
=P(Ca+浓度=低 | 类型=冰川水)* P(Mg+浓度=高 | 类型=冰川水)* P(Na+浓度=高| 类型=冰川水)* P(Cl-浓度=低 | 类型=冰川水) *P(冰川水) =0.5*0.75*0.5*0.5*0.5=0.0468
P(Ca+浓度=低,Mg+浓度=高,Na+浓度=高,Cl-浓度=低 | 类型=湖泊水)*P(湖泊水)
=P(Ca+浓度=低 | 类型=湖泊水)* P(Mg+浓度=高 | 类型=湖泊水)* P(Na+浓度=高| 类型=湖泊水)* P(Cl-浓度=低 | 类型=湖泊水) *P(湖泊水) =0.5*0.25*0.5*1*0.5=0.03123 第一个样本为冰川水
P(Ca+浓度=高,Mg+浓度=高,Na+浓度=低,Cl-浓度=高 | 类型=冰川水)*P(冰川水)
=P(Ca+浓度=高 | 类型=冰川水)* P(Mg+浓度=高 | 类型=冰川水)* P(Na+浓度=低| 类型=冰川水)* P(Cl-浓度=高 | 类型=冰川水) *P(冰川水) =0.5*0.75*0.5*0.5*0.5=0.0468
P(Ca+浓度=高,Mg+浓度=高,Na+浓度=低,Cl-浓度=高 | 类型=湖泊水)*P(湖泊水)
=P(Ca+浓度=高 | 类型=湖泊水)* P(Mg+浓度=高 | 类型=湖泊水)* P(Na+浓度=低| 类型=湖泊水)* P(Cl-浓度=高 | 类型=湖泊水) *P(湖泊水) =0.5*0.25*0.5*0*0.5=0
第二个样本为冰川水 题五
A,B,C,D,E,F,G之间的距离矩阵如下表 A B C D E F G A B 1 2 5 C 41 50 45 D 42.5 50.5 48.5 0.5 E F 28.25 36.25 31.25 1.25 1.5 68 65 90 45 36.5 46.25 G 根据距离矩阵建立的树如下
B C D E A F G 题六
第一次迭代以A,B作为平均点,对剩余的点根据到A、B的距离进行分配 {A,C,D,E,F,G,H}, {B} 计算两个簇的平均点 (6.5, 1.7), (4, 5)
第二次迭代,对剩余的点根据到平均点的距离进行分配,得到两个簇 {D,E,F,H}和{A,B,C,G} 计算两个簇的平均点 (9.1, 0.5), (3.25, 3.75)
第三次迭代,对剩余的点根据到平均点的距离进行分配,得到两个簇 {D,E,F,H}和{A,B,C,G}
由于所分配的簇没有发生变化,算法终止。