火龙果?整理 uml.org.cn
X1 X2 X3 ?? X10
X1 1 0.871 0.516 0.37 0.172 0.936 0.811 0.015 0.5 0.33 X2 1 0.7 0.64 0.4 0.821?? ?? 1??
1 ??
1??
1??
1??
1??
1??
X10 1??
2)用计算机求解特征方程 det(R-?E)=0的特征根?i,其中累计贡献率达到93.4%的前三个特征根为:?1=6.83,?2=1.76,
?3=0.75;
3)计算三个特征值的特征向量及累计贡献率见下表:
评价组 X1 X2 X3 X4 X4 X6 X7 X8 X9 X10 特征值?i 有效率?i/10 累计贡献率 特征向量B1 0.268 0.311 0.323 0.229 0.261 0.309 0.344 0.348 0.346 0.303 6.83 68.3% 68.3% n特征向量B2 0.446 0.24 -0.166 -0359 -0.507 0.408 0.235 0.032 -0.164 -0.267 1.76 0.176 85.9% 特征向量B3 0.194 0.336 0.442 0.375 0.128 -0.084 -0.171 -0.29 -0.322 -0.522 0.75 0.075 93.4% 4)计算主分量Z k,Z k=?BkiXi,即
i?1 Z1=0.268X1+0.311X2+0.323X3+?0.30X10
Z2=0.446X1+0.24X2 —0.1663X3+?—0.267X10 Z3=0.194X1+0.336X2 +0.442X3+?—0.522X10 5)分析各特征向量的各分量的取值
对B1,各分量取值差异不大,符号相同(都是正号),表明对哪一评价组合都是喜欢的,或者都是不喜欢的,因此可以把新的综合指标Z1定义为偏好指标;
对B2,从第1组到第5组,从第6组到第10组,有从大到小的变化相同的趋势,即随年龄的增长而取值由正变负,表示了年龄对偏好喜欢程度的影响,因此可以把综合指标Z2定义
16
火龙果?整理 uml.org.cn
为年龄指标。
对B3,各分量对于1到5组(男性)取正值,对于女性取负值,表示由于性别的不同而产生的偏好上的不同,所以可以把综合指标Z3定义为性别指标。
可以归纳为:影响手机购买的主要因素是:偏好、年龄、性别。
6) 可以通过X1——X10的取值,获取Zk的取值,分析偏好与年龄的变化关系; 7)可以通过计算Zk对Xi的贡献率vi??rk?1m2(Zk,Xi),确定贡献率最大的
vi相应的
评价组合,由此确定销售主要的对象策略。如计算得到的 Xi vi为:
r(Z3,Xi) vi??r2(Zk,Xi) k?13r(Z1,Xi) 0.91 0.7 0.62 0.91 0.86 0.76 0.78 0.5 0.23 0.42 r(Z2,Xi) 0.32 0.23 -0.53 0.29 0.32 0.44 0.31 -0.6 0.11 -0.23 1 2 3 4 5 6 7 8 9 10 0.01 0.08 0.18 0.04 0.04 -0.03 0.03 -0.19 0.8 -0.67 0.93 * 0.55 0.7 0.92 * 0.85 * 0.77 * 0.71 0.65 0.7 0.7 把i大于0.75的用*表出,可见偏好、年龄以及性别对20岁以下的男、女组合、40岁以上的男性组合影响较大。
思考问题:如何通过收集的客户有关数据,分析客户流失的主要因素? 作业:
用随机赋分形式形成各年龄层的调查分数,借助SPSS,求出各年龄层最感兴趣的三款手机。
4、决策树概述
决策树:一种以实例为基础的归纳学习算法,它从一组无次序、无规则的实例中推理出树表示形式的分类规则。
问题引入:设想影响气候的主要指标有四个: 天气:晴、多云、下雨;分别记为0,1,2
温度:寒冷,温暖,热,分别记为0,1,2 湿度:潮湿、正常,分别记为0,1,
17
v 火龙果?整理 uml.org.cn
风力:有风,没风,分别记为0,1。
将气候分为两个级别:P,N,分别记为0,1。
如果某一天的气候为多云,寒冷,湿度正常,没风,问气候是哪一级别? 思路:1)建立判别实例集;
2)由实例集建立一棵判别的决策树; 3)由决策树对任何组合气候特征进行判断。 关键问题:如何建立决策树,树的属性判别次序如何选择?
C5.0系统决策树的算法(ID3)特点:首先找出最有判别力的因素,把数据分成两个子集,每个子集又选择最有判别力的因素进行划分,一直进行到所有子集仅包含同一类型的数据为止。 决策树建立过程:设收集的气候实例集为: 样本号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 设想用获得信息量最大的特征作为决策树判别的标准。若U表示信息源,V表示收到的信息,I(U,V)表示收到信息V后获得关于U的信息量,定义 I(U,V)=H(U)—H(U∣V)
对于相同的U及不同的V,当I(U,V)最大时,将属性V(即收到的信息)作为决策树的判断点。
关于H(U)、H(U∣V)的计算,用上述实例说明。
设Uj表示输出类别(j=1,2),即U1=P,U2=N;Vk表示判别特征,即V1=天气,V2=温度,V3=湿度,V4=风力,k=1,2,3,4,Vkj表示第K个判别特征的第j个取值,如V1=天气的取值为:V11=晴,V12=多云,V13=有雨。为了选择最有判别力的特征,需要分别计算I(U,Vk),从中取最大I(U,Vk0),相应的Vk0就是判别特征。
天气 晴 晴 多云 有雨 有雨 有雨 多云 晴 晴 有雨 晴 多云 多云 有雨 温度 热 热 热 温暖 寒冷 寒冷 寒冷 温暖 寒冷 温暖 温暖 温暖 热 温暖 湿度 潮湿 潮湿 潮湿 潮湿 正常 正常 正常 潮湿 正常 正常 正常 潮湿 正常 潮湿 风力 没风 有风 没风 没风 没风 有风 有风 没风 没风 没风 有风 有风 没风 有风 分类 N N P P P N P N P P P P P N 1)
H(U)的计算:根据输出类别Uj的概率进行计算,即
18
火龙果?整理 uml.org.cn
2
H(U)???P(Ui)log2P(Ui)
i?1由于 P(U1)=9/14, P(U2)=5/14
H(U)???P(Ui)log2P(Ui)
i?12 = —[9/14?log2(9/14)+ 5/14?log2(5/14)] =0.94
2)
计算H(U∣V1):
H(UV1)??P(V1j)H(UV1j)??P(V1j)(??P(UiV1j)log2P(UiV1j)),
j?1j?1i?1332 (1) 由于
P(V11)=5/14, P(V12)=4/14, P(V13)=5/14, P(U1∣V11)=2/5,P(U2∣V11)=3/5 P(U1∣V12)=1,P(U2∣V11)=0 P(U1∣V13)=3/5,P(U2∣V13)=2/5 代入(1)得:
H(UV1)??P(V1j)H(UV1j)??P(V1j)(??P(UiV1j)log2P(UiV1j))
j?1j?1i?1332 =5/14[2/5 log2(5/2)+ 3/5 log2(5/3)]+ 4/14[log2(1)+ 0]+ 5/14[3/5 log2(5/3)+ 2/5
log2(5/2)]
=0.694,
3) 4)
计算I(U,V1):
I(U,V1)=H(U)—H(U∣V1)=0.94-0.694=0.246 同理计算I(U,Vk)(k=2,3,4),并求出最大I(U,Vk):
可以计算得到:I(U,V2)=0.029,I(U,V3)=0.159,I(U,V4)=0.048
与I(U,V1)==0.246相比,I(U,V1)最大,所以第一选择判别特征为V1=天气,作为决策树树根。
5)
建立树根的分支:树根对应的三个属性值(晴、多云,有雨)作为分支,分别有相
应晴的子集样本为F1={1,2,8,9,11},相应多云的子集样本为F2={3,7,12,13},相应有雨的子集样本为F3={4,5,6,10,14},其中F1中2个取P,3个取N, F2中全部取N,F3中3个取P,2个取N。所以仅需对F1、F3进一步判别,对F2不需再判别。
19
火龙果?整理 uml.org.cn
6)
递归建树:分别利用上述算法(ID3)对子集F1、F3继续判别,即对子集Fi(i=1,3)
个特征求平均互信息最大的特征。可以得到:
对F1,I(U,V3)最大,以其为该分支的结点再分支,由于取V3=湿度时,潮湿对应的类全是N类,正常对应的类全是P类,因而已有判别结果,不需继续再分。
对F3,计算得到平均互信息最大的为I(U,V4),V4=风力,以其为结点再分枝,此时有风对应的是N类,无风对应的是P类,所以也有判别结果,不许继续再分。见图所示。
晴 有雨 多云 湿度 风力 P 潮湿 正常 有风 无风 N P N P
天气 7) 8)
利用建立的决策树,对问题“某天气候为有雨,寒冷,湿度正常,没风”,进行判
别,判别结果为“气候为P类”。
利用决策树,可以写出判别规则:
IF “天气是晴” and “湿度潮湿”T hen “气候是N类” IF “天气是晴” and “湿度正常”T hen “气候是P类” IF “天气是多云” T hen “气候是P类”
IF “天气是有雨” and “有风”T hen “气候是N类” IF “天气是有雨” and “无风”T hen “气候是P类”
9)
决策树的存在问题:(1)依赖于特征取值较多的特征;
(2)依赖于正、反例取值个数;
(3)当正、反例个数变化时,平均互信息也变化,决策树变化。
思考问题:如何对顾客的数据进行判别,以作出最佳销售策略? 如何从一个决策树,转换为一个神经网络?
20