数据分析与建模实验指导书(4)

2018-12-21 11:37

s=19*(s1+s2+s3)/57; % 计算混合样本方差 for i=1:3 for j=1:3 for k=1:3

w(j,k)=(x(i,:)-1/2*(m(j,:)+m(k,:)))*inv(s)*(m(j,:)-m(k,:))'; %计算判别函数 if w(j,k)<0 q=0;break; else q=1; end end if q==1 y(i)=j; end end end y

输出结果为: y =

1 3 2 三、实习题

1.已知X?(x1,x2)T服从二维正态分布N(?,?),其中????0??,????0.9???TT?0??10.9??,试?1?分别求点A?(1,1)和B?(1,?1)到总体均值的马氏距离和欧氏距离,并论述马氏距离的合理性。

2.设G1、G2为两个二维总体,从中分别抽取容量为3的训练样本,见表4.1。 x1 x2 x1 x2 3 2 6 9 G1 G2 2 4 5 7 4 7 4 8 求:(1)计算两总体的样本均值向量x、x?1??2?和样本协方差矩阵S1、S2;

(2)假定两总体的协方差矩阵相等,记为?,用S1、S2联合估计?; (3)建立距离判别法的判别准则; (4)设有一样品x0??2,7?,判别其归属。

实习五 主成分分析和典型相关分析

一、实验目的

1.掌握MATLAB主成分析的方法与计算步骤。 2.了解MATLAB典型相关分析的方法与计算步骤。 二、实例

1.设随机向量的协方差矩阵为S=[2,2,-2;2,5,-4;-2,-4,5]。求X的各主成份以及各主成份的贡献率。 clear

S=[2,2,-2;2,5,-4;-2,-4,5]; %S表示总体的协方差矩阵 [PC,vary,explained]=pcacov(S) %总体主成分分析

PC=

-0.3333 0 0.9428 -0.6667 0.7071 -0.2357 0.6667 0.7071 0.2357 vary=

10.0000 1.0000 1.0000 explained= 83.3333 8.3333 8.3333

2.根据调查分析,影响我国粮食安全生产的主要因素有以下几个方面:有效灌溉面积,粮食播种面积,成灾面积,财政投入,农业劳动力,农村用电量 ,农业机械总动力及农业化肥施用量,具体数据如矩阵X所示。

由于各个指标的单位不同,且各指标的方差相差很大,所以首先对样本数据进行无量纲的变换,变换方法是用采用标准化方法。然后对标准化的样本数据进行主成份 分析。 clear

X=[4740.31 11346.60 178.20 221.76 33336.00 844.50 28707.70 647.58 4782.21 11231.40 278.10 243.55 34186.30 963.20 29388.60 701.28 4859.01 11056.00 259.00 269.04 34037.00 1106.90 30308.40 732.55 4872.79 11050.90 231.30 323.42 33258.20 1244.80 31816.60 787.98 4875.91 10854.40 313.80 399.70 32690.30 1473.90 33802.50 829.53 4928.12 11006.00 222.70 430.22 32335.00 1655.70 36118.10 898.40 5038.14 11254.80 212.30 510.07 32260.40 1812.70 38546.90 957.00 5123.85 11291.20 303.10 560.77 32434.90 1980.10 42015.60 995.23 5229.56 11378.70 251.80 626.02 32626.40 2042.10 45207.70 1020.88 5315.80 11316.10 267.30 677.46 32911.80 2173.40 48996.10 1031.08 5382.00 10846.30 343.70 766.89 32798.00 2421.30 52573.60 1036.63 5424.90 10608.00 317.90 917.96 32451.00 2610.80 55172.10 1063.28 5435.50 10389.10 271.60 1102.70 31991.00 2993.40 57929.90 1083.08

5401.42 9941.00 325.20 1134.86 31259.60 3432.90 60386.50 1102.90 5447.80 10160.60 163.00 1693.79 30596.00 3933.00 64027.90 1157.30 5502.93 10427.80 199.70 1792.40 29975.50 4375.70 68397.80 1191.45 5575.05 10495.80 246.30 2161.35 28886.35 4895.80 72522.10 1231.90 5651.83 10563.80 250.60 3404.70 22543.4 5509.90 76589.60 1276.70 5847.17 10679.30 222.80 4544.01 20078.6 5713.20 82190.41 1309.19]; %数据无量纲化

X1=zscore(X); %按公式(5.14)对样本数据标准化 %主成份分析

[pc,la,tent]=princomp(X1) %主成份分析,pc是特征向量矩阵,la得分矩阵,tent特征值 tents=sum(tent) %特征值总和

gxl= tent/ tents %各个主成份贡献率 pc =

0.3933 -0.1518 -0.0544 0.3944 0.5494 0.3701 -0.1396 0.4533 -0.2821 0.3173 -0.7669 0.4403 0.0325 -0.1907 -0.0141 -0.0121 -0.0479 -0.8701 -0.4379 -0.1998 -0.0337 -0.0838 0.0257 -0.0115 0.3856 0.1952 -0.2572 -0.3364 0.2998 0.0210 0.7181 -0.1668 -0.3605 -0.2487 0.3850 0.4799 0.2640 -0.3102 0.5109 -0.0512 0.4083 0.0358 0.0265 -0.0014 -0.2123 -0.7233 0.0088 0.5128 0.4070 -0.0643 0.0422 0.1814 0.2707 -0.3433 -0.3636 -0.6872 0.3905 -0.1175 -0.0151 0.4841 -0.6466 0.2861 0.2659 -0.1692 tent =

5.9106 1.1327 0.6118 0.2842 0.0347 0.0216 0.0039 0.0005 gxl =

0.7388 0.1416 0.0765 0.0355 0.0043 0.0027 0.0005 0.0001

3.主成分分析用于分类.做出蠓虫原始数据图与主成分得分数据图。 clear

apf=[1.14,1.78;1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96];

af=[1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90;1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08]; x=[1.24,1.8;1.28,1.84; 1.4,2.04]; % 输入原始数据

subplot(2,1,1)

plot(apf(:,1),apf(:,2),'*',af(:,1),af(:,2),'or',x(:,1),x(:,2),'p') % 原始数据图形 [c1,s1,l1,t1]=princomp([apf;af;x]); % 计算主成分得分s1 subplot(2,1,2),

plot(1:6,s1(1:6,2),'*') hold on

plot(7:15,s1(7:15,2),'or') hold on

plot(16:18,s1(16:18,2),'p')

legend('apf','af','x') % 主成分得分图形 hold on

plot(0:18,0*ones(1,19),'-')

4.某康复俱乐部对20名中年人测量了三项生理指标:体重(weight )、腰围(waist )、脉搏(pulse)和三项训练指标:引体向上(chins )、起坐次数(situps )、跳跃次数(jumps )。其数据列于表5.1。试分析这两组变量间的相关性。 Obs weight waist pulse chins situps jumps 1 191 36 50 5 162 60 2 189 37 52 2 110 60 3 193 38 58 12 101 101 4 162 35 62 12 105 37 5 189 35 46 13 155 58 6 182 36 56 4 101 42 7 211 38 56 8 101 38 8 167 34 60 6 125 40 9 176 31 74 15 200 40 10 154 33 56 17 251 250 11 169 34 50 17 120 38 12 166 33 52 13 210 115 13 154 34 64 14 215 105 14 247 46 50 1 50 50 15 193 36 46 6 70 31 16 202 37 62 12 210 120 17 176 37 54 4 60 25

18 157 32 52 11 230 19 156 33 54 15 225 20 138 33 68 2 110 clear

DATA=[191 36 50 5 162 60 189 37 52 2 110 60 193 38 58 12 101 101 162 35 62 12 105 37 189 35 46 13 155 58 182 36 56 4 101 42 211 38 56 8 101 38 167 34 60 6 125 40 176 31 74 15 200 40 154 33 56 17 251 250 169 34 50 17 120 38 166 33 52 13 210 115 154 34 64 14 215 105 247 46 50 1 50 50 193 36 46 6 70 31 202 37 62 12 210 120 176 37 54 4 60 25 157 32 52 11 230 80 156 33 54 15 225 73 138 33 68 2 110 43];

X=DATA(:,1:3); %第一组向量观测值 Y=DATA(:,4:6); %第二组向量观测值 [A,B,r,U,V,stats] = canoncorr(X,Y) A=

-0.0314 -0.0763 0.0077 0.4932 0.3687 -0.1580 -0.0082 -0.0321 -0.1457 B=

-0.0661 -0.0710 0.2453 -0.0168 0.0020 -0.0198 0.0140 0.0207 0.0082 r=

0.7956 0.2006 0.0726 三、实习题

1.设随机向量X=(X1,X2,X3)T的协方差与相关系数矩阵分别为

80 73 43

?14??10.8???,???R??425??0.81??

????分别从?,R出发,求X的各主成分以及各主成分的贡贡率并比较差异况。


数据分析与建模实验指导书(4).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:大眼睛羚羊

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: