数据挖掘原理与实践 蒋盛益 答案(4)

2019-01-10 12:03

3.8 考虑表 3-25 中的一维数据集。 表 3-25 习题 3.8 数据集

X 0.5 3.0 4.5 4.6 4.9 5.2 5.3 5.5 7.0 9.5 Y - - + + + - - + - -

根据 1-最近邻、3-最近邻、5-最近邻、9-最近邻,对数据点 x=5.0 分类,使用多数表决。 答: 1-最近邻:+ 3-最近邻:- 5-最近邻:+ 9-最近邻:-

3.9 表 3-26 的数据集包含两个属性 X 与 Y,两个类标号“+”和“-”。每个属性取三个不同

值策略:0,1 或 2。“+”类的概念是 Y=1,“-”类的概念是 X=0 and X=2。 表 3-26 习题 3.9 数据集 实例数 X Y + -

0 0 0 100 1 0 0 0 2 0 0 100 1 1 10 0 2 1 10 100 0 2 0 100 1 2 0 0 2 2 0 100

第 13 页 共 27 页

(1) 建立该数据集的决策树。该决策树能捕捉到“+”和“-”的概念吗?

(2) 决策树的准确率、精度、召回率和 F1 各是多少?(注意,精度、召回率和 F1 量均是 对“+”类定义)

(3) 使用下面的代价函数建立新的决策树,新决策树能捕捉到“+”的概念么? + = ? = + ?

? = + = = =

j i j i j i j i C , , 1 0 ) , (

如果 实例个数 实例个数 如果 如果

(提示:只需改变原决策树的结点。)

答:(1)在数据集中有 20 个正样本和 500 个负样本,因此在根节点处错误率为 520 20 ) 520 500 , 520 20

max( 1 = ? = E

如果按照属性 X 划分,则: X=0 X=1 X=2 + 0 10 10 - 200 0 300 E X=0 =0/310=0 E X=1 =0/10=0 E X=2 =10/310 520 10 310 10 520 310 0 520 10 0 520 200

= × ? × ? × ? = ? E

X

如果按照属性 Y 划分,则: Y=0 Y=1 Y=2 + 0 20 0

- 200 100 200 E Y=0 =0/200=0 E Y=1 =20/120 E Y=2 =0/200=0 0 120 20 520 120

= × ? = ? E X

因此 X 被选为第一个分裂属性,因为 X=0 和 X=1 都是纯节点,所以使用 Y 属性去 分割不纯节点 X=2。

Y=0 节点包含 100 个负样本,Y=1 节点包含 10 个正样本和 100 个负样本,Y=2 节 点包含 100 个负样本,所以子节点被标记为“—”。整个结果为: 类标记= ? = + 其他 , 1 , X (2)

预测类 + -

+ 10 10 实际类 - 0 500

第 14 页 共 27 页 accuracy: 520 510

=0.9808,precision: 10 10 =1.0 recall: 20 10

=0.5 , F-measure:

5 . 0 0 . 1 0 . 1 5 . 0 2 + ? ?

=0.6666

(3)由题可得代价矩阵为 预测类 + -

+ 0 500/20=25 实际类 - 1 0

决策树在(1)之后还有 3 个叶节点,X=2∧Y=0,X=2∧Y=1,X=2∧Y=2。其中

X=2∧Y=1 是不纯节点,误分类该节点为“+”类的代价为:10 ? 0+100 ? 1=100,误分 该节点为“—”类的代价为:10 ? 25+100 ? 0=250。所以这些节点被标记为“+”类。 分类结果为: ( ) ?

= ∧ = ∨ = + = 其他 类标记 1 2 1 Y X X

3.10 什么是提升?陈述它为何能提高决策树归纳的准确性?

答:提升是指给每个训练元组赋予权重,迭代地学习 k 个分类器序列,学习得到分类器 M i

之后,更新权重,使得其后的分类器 M i+1 “更关注”M i 误分的训练元组,最终提升的 分类器 M*组合每个个体分类器,其中每个分类器投票的权重是其准确率的函数。在提 升的过程中,训练元组的权重根据它们的分类情况调整,如果元组不正确地分类,则它 的权重增加,如果元组正确分类,则它的权重减少。元组的权重反映对它们分类的困难 程度,权重越高,越可能错误的分类。根据每个分类器的投票,如果一个分类器的误差 率越低,提升就赋予它越高的表决权重。在建立分类器的时候,让具有更高表决权重的 分类器对具有更高权重的元组进行分类,这样,建立了一个互补的分类器系列。所以能 够提高分类的准确性。

3.11 表 3-27 给出课程数据库中学生的期中和期末考试成绩。 表 3-27 习题 3.11 数据集 期中考试 期末考试 X Y 72 84 50 63 81 77 74 78 94 90

86 75 59 49 83 79 65 77 33 52 88 74

第 15 页 共 27 页 81 90

(1) 绘制数据的散点图。X 和 Y 看上去具有线性联系吗?

(2) 使用最小二乘法,由学生课程中成绩预测学生的期末成绩的方程式。 (3) 预测期中成绩为 86 分的学生的期末成绩。 答:(1)数据图如下所示: 0 10 20 30 40 50 60 70 80 90 100

0 20 40 60 80 100

系列1

X 和 Y 具有线性联系。 (2)

Y = a + b*X a = Y 0 + b*X 0

b = (∑x i y i -nX 0 Y 0 )/(∑x i 2 -nX 0 2 ) X 0 = (∑x i )/n Y 0 = (∑y i )/n

求得 a = 32.0279,b = 0.5816。

(3) 由(2)中表可得,预测成绩为 86 分的学生的期末成绩为 82.0455。

3.12 通过对预测变量变换,有些非线性回归模型可以转换成线性模型。指出如何将非线性回 归方程 β

ax y = 转换成可以用最小二乘法求解的线性回归方程。 X Y X*Y X^2 预测 Y

1 72 84 6048 5184 73. 9031 2 50 63 3150 2500 61. 1079 3 81 77 6237 6561 79. 1375 4 74 78 5772 5476 75. 0663


数据挖掘原理与实践 蒋盛益 答案(4).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:计算机组成原理考试试题

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: