10 10 9 8 8 9 9 10 9 8 5 6 8 6 8 6 10 8 7 5 6 10 8 5 5 7 7 6 8 70 72 77 76 71 67 69 62 88 80 30 83 84 78 79 62 37 71 52 48 75 35 85 86 86 79 79 68 40 4 4 4 4 5 4 3 5 4 4 3 5 3 4 2 4 3 4 4 6 4 4 4 3 7 7 5 6 4 2 1 1 1 3 2 3 3 2 2 3 1 2 2 1 3 1 1 1 5 1 1 1 1 2 4 2 2 3 11 8 9 7 16 13 9 14 7 13 5 10 7 11 7 9 7 10 12 8 10 6 9 6 13 9 8 11 6 7 10 10 7 4 2 5 4 6 11 2 23 6 11 10 8 2 7 8 4 24 9 10 12 18 25 6 14 5 3 3 3 3 4 3 3 4 3 4 3 4 3 3 3 3 3 3 4 3 3 2 2 2 2 3 2 3 2
你的任务是利用尽可能少的变量提取原数据集的信息。分别样本协方差矩阵和样本相关矩阵作主成分分析,二者的结果有何差异?原始数据的变化可否由三个或更少的主成分反映,你能否给所选取的主成分作出解释?
2.8 下表是世界上55个国家和地区1984年前在七个径赛项目上的女子纪录: 国家和地区 100m(s) 200m(s) 400m(s) 800m(min) 22.94 22.35 23.09 23.04 23.05 23.17 24.47 54.50 51.08 50.62 52.00 53.30 52.80 55.00 2.15 1.98 1.99 2.00 2.16 2.10 2.18 1500m(min) 4.43 4.13 4.22 4.14 4.58 4.49 4.45 3000m(min) 9.79 9.08 9.34 8.88 9.81 9.77 9.51 马拉松(min) 178.52 152.37 159.37 157.85 169.98 168.75 191.02 阿根廷 11.61 澳大利亚 11.20 奥地利 11.43 比利时 11.41 百慕大 巴西 缅甸
11.46 11.31 12.14
加拿大 智利 中国 哥伦比亚 库克岛 哥斯达黎加 捷克斯洛伐克 丹麦 多米尼加共和国 芬兰 法国 东德 西德 11.00 12.00 11.95 11.60 12.90 11.96 11.09 11.42 11.79 11.13 11.15 10.81 11.01 22.25 24.52 24.41 24.00 27.10 24.60 21.97 23.52 24.05 22.39 22.59 21.71 22.39 22.13 24.08 24.54 23.06 24.28 24.24 23.51 23.57 23.00 24.00 23.88 24.49 25.78 24.96 24.21 25.08 23.62 22.81 23.13 23.31 25.07 23.54 22.21 24.22 23.46 25.00 50.06 54.90 54.97 53.26 60.40 58.25 47.99 53.60 56.05 50.14 51.73 48.16 49.75 50.46 54.93 56.09 51.50 53.60 55.34 53.24 54.90 52.01 53.73 52.70 55.70 51.20 56.10 55.09 58.10 53.76 52.38 51.60 53.12 56.96 54.60 49.29 54.30 51.20 55.08 2.00 2.05 2.08 2.11 2.30 2.21 1.89 2.03 2.24 2.03 2.00 1.93 1.95 1.98 2.07 2.28 2.01 2.10 2.22 2.05 2.10 1.96 2.09 2.00 2.15 1.97 2.07 2.19 2.27 2.04 1.99 2.02 2.03 2.24 2.19 1.95 2.09 1.92 2.12 4.06 4.23 4.33 4.35 4.84 4.68 4.14 4.10 4.74 4.18 4.14 3.96 4.03 4.03 4.35 4.86 4.14 4.32 4.61 4.11 4.25 3.98 4.35 4.15 4.42 4.25 4.38 4.69 4.79 4.25 4.06 4.18 4.01 4.84 4.60 3.99 4.16 3.96 4.52 8.81 9.37 9.31 9.46 11.10 10.43 8.98 8.92 9.89 8.71 8.98 8.75 8.59 8.62 9.87 10.54 8.98 9.98 10.02 8.89 9.37 8.63 9.20 9.20 9.62 9.35 9.64 10.46 10.90 9.59 9.01 8.76 8.53 10.69 10.16 8.97 8.84 8.53 9.94 149.45 171.38 168.48 165.42 233.22 171.80 155.27 154.23 203.88 151.75 155.27 157.68 148.53 149.72 182.20 215.08 156.37 188.03 201.28 149.38 160.48 151.82 150.50 181.05 164.65 179.17 174.68 182.17 261.13 158.53 152.48 145.58 145.48 233.00 200.37 160.82 151.20 165.45 182.77 英国 11.00 希腊 11.79 危地马拉 11.84 匈牙利 11.45 印度 11.95 印度尼西亚 爱尔兰 以色列 意大利 日本 肯尼亚 韩国 朝鲜 11.85 11.43 11.45 11.29 11.73 11.73 11.96 12.25 卢森堡 12.03 马来西亚 12.23 毛里求斯 11.76 墨西哥 11.89 荷兰 11.25 新西兰 挪威 巴布亚新几内亚 菲律宾 11.55 11.58 12.25 11.76 波兰 11.13 葡萄牙 11.81 罗马尼亚 11.44 新加坡 12.30
西班牙 瑞典 瑞士 中国台北 泰国 土耳其 美国 11.80 11.16 11.45 11.22 11.75 11.98 10.79 23.98 22.82 23.31 22.62 24.46 24.44 21.83 22.19 25.85 53.59 51.79 53.11 52.50 55.80 56.45 50.62 49.19 58.73 2.05 2.02 2.02 2.10 2.20 2.15 1.96 1.89 2.33 4.14 4.12 4.07 4.38 4.72 4.37 3.95 3.87 5.81 9.02 8.84 8.77 9.63 10.28 9.38 8.50 8.45 13.04 162.60 154.48 153.42 177.87 168.45 201.08 142.72 151.22 306.00 苏联 11.06 西沙摩亚 12.74
(1)求其样本相关矩阵R及它的特征值和相应正交单位化特征向量。 (2)求前两个标准化样本主成分及其累计贡献率。
(3)解释(2)中的两个主成分的意义(事实上,第一主成分近似是各变量的等权重之和,他反应了各国家和地区的运动员的优秀程度,第二主成分可用以度量各国家和地区在各径赛项目上的相对实力)。
(4)基于第一样本主成分的观测值对各国家和地区排序,这与你从原始数据中得到的直观看法是否基本吻合?
2.12从某校初一学生中随机选取了n?40名,考察下列两组指标:
X1:阅读速度, X2阅读理解力; Y1:计算速度, Y2:计算正确程度.
根据观测数据求得?X1,X2,Y1,Y2?的相关矩阵为
T?R11R12R???R21R22?1.000.630.24?0.631.00?0.06??????0.24?0.061.00??0.060.070.420.06??0.07?0.42??1.00?,
(1) 求各对样本典型变量和样本典型相关系数。
(2) 给定??0.05,检验各对典型变量间的相关性是否显著。利用显著相关的典型变量对解
释描述阅读能力的变量?X1,X2?T和描述计算能力的变量?Y1,Y2?T之间的关系。
2.13 随机抽取n?70个家庭考察两个“消费”变量, 和三个“人口统计学”变量Y1,Y2,Y3
之间的关系,其中
X1: 一个家庭每年进餐馆就餐的次数; X2:一个家庭每年去电影院看电影的次数; Y1: 家长的年龄
Y2: 家庭年收入
Y3:家长受教育的程度。
由调查数据求得 ?X1,X2,Y1,Y2,Y3?的样本相关矩阵为
T?R11R12R???R21R22?1.00?0.80?????0.26???0.67?0.34?0.801.000.330.590.340.260.331.000.370.210.670.590.371.000.350.34??0.34?0.21??0.35?1.00??
1 求各典型变量对的典型相关系数,并检验其相关的显著性(??0.05)。
2 求显著相关的典型变量对。
3 利用(2)中典型变量的系数解释“消费”变量与“人口统计学变量”的关系。
第三章 判别分析
3.7下表给出了两类公司的有关金融数据,一类是破产公司,表中数据是这些公司在破产前
两年的四个金融指标。一类是未破产公司在和破产公司大约相同时期的四个相同的金融指标。这四个指标是 X1?流通资金总债务,X2?纯收入总资产,X3?当前资产当前债务,X4?当前资产纯销售额。
各公司的数据如下表(表中最后一列“0”表示破产公司,“1”表示非破产):
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
x1 x2 x3 x4 总体 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 -0.45 -0.56 0.06 -0.07 -0.10 -0.14 0.04 -0.06 0.07 -0.13 -0.23 0.07 0.01 -0.28 0.15 0.37 -0.08 -0.41 -0.31 0.02 -0.09 -0.09 -0.07 0.01 -0.06 -0.01 -0.14 -0.30 0.02 0.00 -0.23 0.05 0.11 -0.08 1.09 1.51 1.01 1.45 1.56 0.71 1.50 1.37 1.37 1.42 0.33 1.31 2.15 1.19 1.88 1.99 1.51 0.45 0.16 0.40 0.26 0.67 0.28 0.71 0.40 0.34 0.44 0.18 0.25 0.70 0.66 0.27 0.38 0.42
18 19 20 21 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
0.05 0.01 0.12 -0.28 0.51 0.08 0.38 0.19 0.32 0.31 0.12 -0.02 0.22 0.17 0.15 -0.10 0.14 0.14 0.15 0.16 0.29 0.54 -0.33 0.48 0.56 0.20 0.47 0.17 0.58 0.03 0.00 0.11 -0.27 0.10 0.02 0.11 0.05 0.07 0.05 0.05 0.02 0.08 0.07 0.05 -0.01 -0.03 0.07 0.06 0.05 0.06 0.11 -0.09 0.09 0.11 0.08 0.16 0.04 0.04 1.68 1.26 1.14 1.27 2.49 2.01 3.27 2.25 4.24 4.45 2.52 2.05 2.35 1.80 2.17 2.50 0.46 2.61 2.23 2.31 1.84 2.33 3.01 1.24 4.29 1.99 2.92 2.45 5.06 0.95 0.60 0.17 0.51 0.54 0.53 0.35 0.33 0.63 0.69 0.69 0.35 0.40 0.52 0.55 0.58 0.26 0.52 0.56 0.20 0.38 0.48 0.47 0.18 0.45 0.30 0.45 0.14 0.13 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 (1)对n1?21个破产公司和n2?25个非破产公司就二位变量x??x1,x2?求两类公司样本均值x(1),x(2)和样本协方差矩阵S1,S2.
T(2)假定X??X1,X2?对两总体均服从二维正态分布且协方差矩阵不相同,在等先验分布和等误判损失下,建立Bayes判别准则。
(3)在(2)中判别准则的貌似误判率和刀切法误判比例,评价此判别准则。
(4)在q1?0.05,q2?0.95,c?12??c?21?下,重复(2),(3)分析。你认为这里对总体出现的先验概率分布的假定是否正确,解释之。
(5)假定X??X1,X2?对两总体均服从协方差矩阵相等的正态分布,重复(2),(3)的分
T