3.8 考虑表 3-25 中的一维数据集。 表 3-25 习题 3.8 数据集
X 0.5 3.0 4.5 4.6 4.9 5.2 5.3 5.5 7.0 9.5 Y - - + + + - - + - -
根据 1-最近邻、3-最近邻、5-最近邻、9-最近邻,对数据点 x=5.0 分类,使用多数表决。 答: 1-最近邻:+ 3-最近邻:- 5-最近邻:+ 9-最近邻:-
3.9 表 3-26 的数据集包含两个属性 X 与 Y,两个类标号“+”和“-”。每个属性取三个不同
值策略:0,1 或 2。“+”类的概念是 Y=1,“-”类的概念是 X=0 and X=2。 表 3-26 习题 3.9 数据集 实例数 X Y + -
0 0 0 100 1 0 0 0 2 0 0 100 1 1 10 0 2 1 10 100 0 2 0 100 1 2 0 0 2 2 0 100
第 13 页 共 27 页
(1) 建立该数据集的决策树。该决策树能捕捉到“+”和“-”的概念吗?
(2) 决策树的准确率、精度、召回率和 F1 各是多少?(注意,精度、召回率和 F1 量均是 对“+”类定义)
(3) 使用下面的代价函数建立新的决策树,新决策树能捕捉到“+”的概念么? + = ? = + ?
? = + = = =
j i j i j i j i C , , 1 0 ) , (
如果 实例个数 实例个数 如果 如果
(提示:只需改变原决策树的结点。)
答:(1)在数据集中有 20 个正样本和 500 个负样本,因此在根节点处错误率为 520 20 ) 520 500 , 520 20
max( 1 = ? = E
如果按照属性 X 划分,则: X=0 X=1 X=2 + 0 10 10 - 200 0 300 E X=0 =0/310=0 E X=1 =0/10=0 E X=2 =10/310 520 10 310 10 520 310 0 520 10 0 520 200
= × ? × ? × ? = ? E
X
如果按照属性 Y 划分,则: Y=0 Y=1 Y=2 + 0 20 0
- 200 100 200 E Y=0 =0/200=0 E Y=1 =20/120 E Y=2 =0/200=0 0 120 20 520 120
= × ? = ? E X
因此 X 被选为第一个分裂属性,因为 X=0 和 X=1 都是纯节点,所以使用 Y 属性去 分割不纯节点 X=2。
Y=0 节点包含 100 个负样本,Y=1 节点包含 10 个正样本和 100 个负样本,Y=2 节 点包含 100 个负样本,所以子节点被标记为“—”。整个结果为: 类标记= ? = + 其他 , 1 , X (2)
预测类 + -
+ 10 10 实际类 - 0 500
第 14 页 共 27 页 accuracy: 520 510
=0.9808,precision: 10 10 =1.0 recall: 20 10
=0.5 , F-measure:
5 . 0 0 . 1 0 . 1 5 . 0 2 + ? ?
=0.6666
(3)由题可得代价矩阵为 预测类 + -
+ 0 500/20=25 实际类 - 1 0
决策树在(1)之后还有 3 个叶节点,X=2∧Y=0,X=2∧Y=1,X=2∧Y=2。其中
X=2∧Y=1 是不纯节点,误分类该节点为“+”类的代价为:10 ? 0+100 ? 1=100,误分 该节点为“—”类的代价为:10 ? 25+100 ? 0=250。所以这些节点被标记为“+”类。 分类结果为: ( ) ?
= ∧ = ∨ = + = 其他 类标记 1 2 1 Y X X
3.10 什么是提升?陈述它为何能提高决策树归纳的准确性?
答:提升是指给每个训练元组赋予权重,迭代地学习 k 个分类器序列,学习得到分类器 M i
之后,更新权重,使得其后的分类器 M i+1 “更关注”M i 误分的训练元组,最终提升的 分类器 M*组合每个个体分类器,其中每个分类器投票的权重是其准确率的函数。在提 升的过程中,训练元组的权重根据它们的分类情况调整,如果元组不正确地分类,则它 的权重增加,如果元组正确分类,则它的权重减少。元组的权重反映对它们分类的困难 程度,权重越高,越可能错误的分类。根据每个分类器的投票,如果一个分类器的误差 率越低,提升就赋予它越高的表决权重。在建立分类器的时候,让具有更高表决权重的 分类器对具有更高权重的元组进行分类,这样,建立了一个互补的分类器系列。所以能 够提高分类的准确性。
3.11 表 3-27 给出课程数据库中学生的期中和期末考试成绩。 表 3-27 习题 3.11 数据集 期中考试 期末考试 X Y 72 84 50 63 81 77 74 78 94 90
86 75 59 49 83 79 65 77 33 52 88 74
第 15 页 共 27 页 81 90
(1) 绘制数据的散点图。X 和 Y 看上去具有线性联系吗?
(2) 使用最小二乘法,由学生课程中成绩预测学生的期末成绩的方程式。 (3) 预测期中成绩为 86 分的学生的期末成绩。 答:(1)数据图如下所示: 0 10 20 30 40 50 60 70 80 90 100
0 20 40 60 80 100
系列1
X 和 Y 具有线性联系。 (2)
Y = a + b*X a = Y 0 + b*X 0
b = (∑x i y i -nX 0 Y 0 )/(∑x i 2 -nX 0 2 ) X 0 = (∑x i )/n Y 0 = (∑y i )/n
求得 a = 32.0279,b = 0.5816。
(3) 由(2)中表可得,预测成绩为 86 分的学生的期末成绩为 82.0455。
3.12 通过对预测变量变换,有些非线性回归模型可以转换成线性模型。指出如何将非线性回 归方程 β
ax y = 转换成可以用最小二乘法求解的线性回归方程。 X Y X*Y X^2 预测 Y
1 72 84 6048 5184 73. 9031 2 50 63 3150 2500 61. 1079 3 81 77 6237 6561 79. 1375 4 74 78 5772 5476 75. 0663