A数据挖掘2.0 - 图文(5)

2019-03-16 13:52

{E} 2

频繁项集为3项集{A,B,D}:3

b.列出所有的强关联规则,使它们与下面的元规则匹配,其中,X是代表顾客的变量,“A”、“B”等): itemi是表示项的变量(例如,

?x?transac,tio(nb,uy?Xite(m,1s)2 b[s,c] bu?)ysXi(tem,3 )uysXitem答:所有频繁子项集有{A},{B},{D},{A,B},{A,D},{B,D}

A^B=>D conf=3/4=75% × A^D=>B conf=3/3=100% √ B^D=>A conf=3/3=100% √ 因此,满足条件的强关联规则有:

A^D=>B{supp=75%,conf=100%} B^D=>A{supp=75%,conf=100%}

1.给定如下的数据库表: ID Sky Sunny Sunny Rainy AirTemp Humidity Wind Warm Warm Cold Normal High High Strong Strong Strong Strong Water Warm Warm Warm Forecast Enjoysport Same Same Change Change Yes Yes No 1 2 3 4 Sunny Warm High Cool yes 请计算属性Sky的信息增益。

答:

C1 :Enjoysport=yes=3 C2 :Enjoysport=no=1

I(yes,no)=-3/4log2 3/4-1/4log2 1/4=0.811

sky rainy sunny C1 0 3 C2 1 0 I(sky)=1/4I(0,1)+3/4I(3,0)=0 Gain(sky)=0.811 习题:

1. 以汽车保险为例:假定训练数据库具有两个属性:年龄和汽车类型。

年龄————序数属性 汽车类型——分类属性

类————L:低(风险) ,H:高(风险)

年龄 >21 >21 <21 汽车类型 Maruti Hyundai Maruti 类 L H H <21 >21 >21 使用ID3算法得到一个决策树。

Indica Maruti Hyundai H L H

2. 下面是一个超市某商品连续24个月的销售数据(单位:百万元):21,16,21, 19, 24, 27, 23, 22, 21, 20, 17, 16, 20, 23, 22, 18, 24, 26, 25, 20, 26, 23, 21, 15, 17。

请使用等深、等宽和自定义区间的方法对数据进行分箱,做出利用各种分箱方法得到的直方图。

3. 数据库有4 个事务。设min_sup = 60%,min_conf = 80%。使用Apriori 算法找出所有的频繁项集,并针对每个频繁项集构造强关联规则,列出每个规则的支持度和置信度。

答:

(b)Apriori算法:

{K} 1 ? {A} 4 ? {A,B} 4 ? {A,B,D} 3 {A} 4 {B} 4 {A,D} 3 {B} 4 {D} 3 {B,D} 3 {D} 3 {C} 2 {E} 2

频繁项集为3项集{A,B,D}:3

所有频繁子项集有{A},{B},{D},{A,B},{A,D},{B,D} A^B=>D conf=3/4=75% × A^D=>B conf=3/3=100% √ B^D=>A conf=3/3=100% √ 因此,满足条件的强关联规则有:

A^D=>B{supp=75%,conf=100%} B^D=>A{supp=75%,conf=100%}

题一:

一阶项目集 支持度 a 5 b 4 c 2 d 5 e 3 f 4 g 6 一阶频繁集 支持度 a 5 b 4 d 5 f 4 g 6 二阶候选集 支持度 ab 3 ad 4 af 2 ag 5 bd 3 bf 1 bg 3 df 3 dg 4 fg 3 二阶频繁集 支持度 ad 4 ag 5 dg 4 三阶候选集 支持度 adg 4 三阶频繁集 支持度 adg 4

题二

Distance(G,A)=0.1; Distance(G,B)=0.03; Distance(G,C)=0.11 Distance(G,D)2=0.12; Distance(G,E)2=0.16; Distance(G,F)2=0.05 G的三个最近的邻居为B,F,A,因此G的分类为湖泊水

Distance(H,A)2=0.03; Distance(H,B)2=0.18; Distance(H,C)2=0.22 Distance(H,D)2=0.03; Distance(H,E)2=0.21; Distance(H,F)2=0.16 H的三个最近的邻居为A,D,F,因此H的分类为冰川水 题三

222


A数据挖掘2.0 - 图文(5).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:合阳县中小企业服务中心宣传版

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: