数据分析实验报告(5)

2019-04-09 19:54

实验三 美国50个州七种犯罪比率的数据分析

【实验目的】通过使用SAS软件对实验数据进行主成分分析,熟悉数据分析方

法,培养学生分析处理实际数据的综合能力。

【实验内容】表3给出的是美国50个州每100 000个人中七种犯罪的比率数

据。这七种犯罪是:Murder(杀人罪),Rape(强奸罪),Robbery(抢劫罪),Assault(斗殴罪),Burglary(夜盗罪),Larceny(偷盗罪),Auto(汽车犯罪)。

表3 美国50个州七种犯罪的比率数据

State Alabama Alaska Arizona Arkansas California Colorado Connecticut Delaware Florida Georgia Hawaii Idaho Illinois Indiana Iowa Kansas Kentucky Louisiana Maine Maryland Massachusetts Michigan Minnesota Mississippi Missouri Montana Nebraska Nevada Murder 14.2 10.8 9.5 8.8 11.5 6.3 4.2 6.0 10.2 11.7 7.2 5.5 9.9 7.4 2.3 6.6 10.1 15.5 2.4 8.0 3.1 9.3 2.7 14.3 9.6 5.4 3.9 15.8 Rape 25.2 51.6 34.2 27.6 49.4 42.0 16.8 24.9 39.6 31.1 25.5 19.4 21.8 26.5 10.6 22.0 19.1 30.9 13.5 34.8 20.8 38.9 19.5 19.6 28.3 16.7 18.1 49.1 Robbery 96.8 96.8 138.2 83.2 287.0 170.7 129.5 157.0 187.9 140.5 128.0 39.6 211.3 123.2 41.2 100.7 81.1 142.9 38.7 292.1 169.1 261.9 85.9 65.7 189.0 39.2 64.7 323.1 Assault 278.3 284.0 312.3 203.4 358.0 292.9 131.8 194.2 449.1 256.5 64.1 172.5 209.0 153.5 89.8 180.5 123.3 335.5 170.0 358.9 231.6 274.6 85.8 189.1 233.5 156.8 112.7 355.0 Burglary 1135.5 1331.7 2346.1 972.6 2139.4 1935.2 1346.0 1682.6 1859.9 1351.1 1911.5 1050.8 1085.0 1086.2 812.5 1270.4 872.2 1165.5 1253.1 1400.0 1532.2 1522.7 1134.7 915.6 1318.3 804.9 760.0 2453.1 Larceny 1881.9 3369.8 4467.4 1862.1 3499.8 3903.2 2620.7 3678.4 3840.5 2170.2 3920.4 2599.6 2828.5 2498.7 2685.1 2739.3 1662.1 2469.9 2350.7 3177.7 2311.3 3159.0 2559.3 1239.9 2424.2 2773.2 2316.1 4212.6 Auto 280.7 753.3 439.5 183.4 663.5 477.1 593.2 467.0 351.4 297.9 489.4 237.6 528.6 377.4 219.9 244.3 245.4 337.7 246.9 428.5 1140.1 545.5 343.1 144.4 378.4 309.2 249.1 559.2 New Hampshire New Jersey New Mexico New York North Carolina Ohio North Dakota Oklahoma Oregon Pennsylvania Rhode Island South Carolina South Dakota Tennessee Texas Utah Vermont Virginia Washington West Virginia Wisconsin Wyoming 3.2 5.6 8.8 10.7 10.6 7.8 0.9 8.6 4.9 5.6 3.6 11.9 2.0 10.1 13.3 3.5 1.4 9.0 4.3 6.0 2.8 5.4 10.7 21.0 39.1 29.4 17.0 27.3 9.0 29.2 39.9 19.0 10.5 33.0 13.5 29.7 33.8 20.3 15.9 23.3 39.6 13.2 12.9 21.9 23.2 180.4 109.6 472.6 61.3 190.5 13.3 73.8 124.1 130.3 86.5 105.9 17.9 145.8 152.4 68.8 30.8 92.1 106.2 42.2 52.2 39.7 76.0 185.1 343.4 319.1 318.3 181.1 43.8 205.0 286.9 128.0 201.0 485.3 155.7 203.9 208.2 147.3 101.2 165.7 224.8 90.9 63.7 173.9 1041.7 1435.8 1418.7 1728.0 1154.1 1216.0 446.1 1288.2 1636.4 877.5 1489.5 1613.6 570.5 1259.7 1603.1 1171.6 1348.2 986.2 1605.6 597.4 846.9 811.6 2343.9 2774.5 3008.6 2782.0 2037.8 2696.8 1843.0 2228.1 35061 1624.1 2844.1 2342.4 1704.4 1776.5 2988.7 3004.6 2201.0 2521.2 3386.9 1341.7 2614.2 2772.2 293.4 511.5 259.5 745.8 192.1 400.4 144.7 326.8 388.9 333.2 791.4 245.1 147.5 314.0 397.6 334.5 265.2 226.7 360.3 163.3 220.7 282.0 1、1)分别用样本协方差矩阵和样本相关矩阵作主成分分析,二者的结果有何差

异?

2)原始数据的变化可否由三个或者更少的主成分反映,对所选取的主成分给出合理的解释。

3)计算从样本相关矩阵出发计算的第一样本主成分的得分并予以排序。 2、从样本相关矩阵出发,做因子分析。 【实验前的预备知识】

1、1)总体主成分的定义、求法、性质和标准化变量的主成分; 2)样本主成分。

2、1)因子分析的原理及求法; 2)因子分析的性质。

【实验方法或步骤】

1、主成分分析过程的主要语句形式为: PROC PRINCOMP options; VAR variables; (1)PROC PRINCOMP options;

此语句意味着执行主成分分析,其中的“options”可包括以下内容的部分或全部:

①DATA=SAS data set:指出要分析的SAS数据集名称.这个数据集可以是原始观测值的SAS数据集,也可以是相关矩阵或协方差矩阵.若是后者,需要在数据集名称后加上“(TYPE=CORR)”或“(TYPE=COV)”.若省略数据集选项,则自动使用最新建立的SAS数据集.

②OUT=SAS data set:命名一个输出的SAS数据集,其中包含原始数据以及各主成分的得分(即各主成分的观测值).

⑧OUTSTAT=SAS data set:命名一个包含各变量的均值、标准差、相关矩阵或协方差矩阵、特征值和特征向量的输出SAS数据集.

④COVARIANCE(或COV):要求从协方差矩阵出发作主成分分析.若省略此选项,则从相关矩阵出发进行分析.除非各变量的度量单位是可比较的或已经过某种方式的标准化,否则不宜使用此选项,应从相关矩阵出发作主成分分析. ⑤N=n:指定要计算的主成分个数“n”.其默认值为参与分析的变量个数. ⑥PREFIX=name:规定各主成分的名称的前缀.省略此句则SAS系统自动赋予各主成分名称分别为PRIN1,PRIN2,?.若“name=A”,则各主成分名称分别为A1,A2,?.前缀的字符个数加上后面数字位数应不超过8个字符. (2)VAR variables;

此语句中的“variables”部分列出数据集中参与主成分分析的变量名称.若省略此句,则被分析数据集中所有数值变量均参与分析. 2、

因子分析过程的主要语句形式为:

PROC FACTOR DATA=SAS data set options; VAR variables; RUN; “options”语句包括:

1)提取公因子的方法:METHOD=PRINCIPAL(主成分分析法),PRINIT(迭代主成分分析法),ML(极大似然法)

2)给公因子方差赋初值:PRIORS=ASMC(置方差sii2正比于xi与其它之间的全部相

关系数的平方),MAX(置sii为xi与其它指标中某一个的最大绝对相关系数),ONE(置所有的sii为1),SMC(置sii为xi与其它指标之间的全相关系数的平方)

2223) 因子旋转方法:ROTATE=VARIMAX(最大方差旋转法),ORTHOMAX(正交最大方

差旋转法),PROMAX(在最大方差旋转的基础上进行斜交旋转)

4)计算因子得分模型中的系数,记作SCORE。

【实验程序】

data a;

input State$ Murder Rape Robbery Assault Burglary Larceny Auto; cards; Alabama Arizona

14.2

25.2

96.8

278.3 1135.5 1881.9 280.7

Alaska 10.8

51.6

96.8 83.2

284.0 1331.7 3369.8 753.3 203.4 972.6 1862.1 183.4

9.5 34.2 138.2 312.3 2346.1 4467.4 439.5

287.0 358.0 2139.4 3499.8 663.5 129.5 131.8 1346.0 2620.7 593.2 187.9 449.1 1859.9 3840.5 351.4 140.5 256.5 1351.1 2170.2 297.9

1911.5 3920.4 489.4

172.5 1050.8 2599.6 237.6

Arkansas 8.8 27.6 California 11.5 Connecticut Florida Georgia

Colorado 6.3 42.0 Delaware 6.0 24.9

10.2 11.7

49.4

170.7 292.9 1935.2 3903.2 477.1 157.0 194.2 1682.6 3678.4 467.0

4.2 16.8

39.6 31.1 39.6

Hawaii 7.2 25.5 Idaho 5.5 19.4 Indiana Iowa

128.0 64.1

Illinois 9.9 21.8

7.4 26.5 2.3 10.6

211.3 209.0 1085.0 2828.5 528.6 123.2 153.5 1086.2 2498.7 377.4

89.8 81.1

812.5 2685.1 219.9

123.3 872.2 1662.1 245.4

41.2 19.1 30.9 38.7

Kansas 6.6 22.0 Kentucky 10.1 Louisiana 15.5 Maine 2.4 13.5

100.7 180.5 1270.4 2739.3 244.3

142.9 335.5 1165.5 2469.9 337.7 170.0 1253.1 2350.7 246.9

169.1 231.6 1532.2 2311.3 1140.1

85.8 65.7

1134.7 2559.3 343.1

189.1 915.6 1239.9 144.4

Maryland 8.0 34.8 Michigan 9.3 38.9 Minnesota 2.7 19.5 Mississippi Montana

14.3

Missouri 9.6 28.3

5.4 16.7

292.1 358.9 1400.0 3177.7 428.5 261.9 274.6 1522.7 3159.0 545.5 85.9 19.6 39.2

Massachusetts 3.1 20.8

189.0 233.5 1318.3 2424.2 378.4

156.8 804.9 2773.2 309.2

Nebraska 3.9 18.1 Nevada 15.8

49.1

64.7 112.7 760.0 2316.1 249.1

76.0

1041.7 2343.9 293.4

323.1 355.0 2453.1 4212.6 559.2

23.2

180.4 185.1 1435.8 2774.5 511.5 109.6 343.4 1418.7 3008.6 259.5

472.6 319.1 1728.0 2782.0 745.8

61.3 43.8

318.3 1154.1 2037.8 192.1 446.1 1843.0 144.7

17.0

NewHampshire 3.2 10.7 NewJersey 5.6 21.0 NewMexico 8.8 39.1 NewYork Ohio

10.7

NorthCarolina 10.6

7.8 27.3

NorthDakota

29.4

190.5 181.1 1216.0 2696.8 400.4

73.8

205.0 1288.2 2228.1 326.8

0.9 9.0 13.3

Oklahoma 8.6 29.2 Oregon 4.9 39.9 RhodeIsland SouthDakota Texas 13.3 Utah Vermont

124.1 286.9 1636.4 35061 388.9

130.3 128.0 877.5 1624.1 333.2 86.5 17.9

201.0 1489.5 2844.1 791.4 155.7 570.5 1704.4 147.5 105.9 485.3 1613.6 2342.4 245.1

Pennsylvania 5.6 19.0

3.6 10.5 2.0 13.5

29.7 68.8 33.8

SouthCarolina 11.9 Tennessee 10.1

3.5 20.3

33.0

145.8 203.9 1259.7 1776.5 314.0 147.3 1171.6 3004.6 334.5

101.2 1348.2 2201.0 265.2 165.7 986.2 2521.2 226.7

90.9

597.4 1341.7 163.3

152.4 208.2 1603.1 2988.7 397.6 30.8 92.1

1.4 15.9

Virginia 9.0 23.3 Washington 4.3 39.6 Wisconsin 2.8 12.9 Wyoming ;

proc print data=a;

5.4 21.9

106.2 224.8 1605.6 3386.9 360.3

42.2 52.2 39.7

63.7

846.9 2614.2 220.7

WestVirginia 6.0 13.2

173.9 811.6 2772.2 282.0

proc princomp cov data=a;

var Murder Rape Robbery Assault Burglary Larceny Auto; run;

proc princomp data=a out=a1;

var Murder Rape Robbery Assault Burglary Larceny Auto; run;

proc sort data=a1 out=a2; by prin1; run;

proc print data=a2(keep=State Murder Rape Robbery Assault Burglary Larceny Auto prin1 prin2); run;

proc factor data=a score; run;

【实验结果】

1、1)本协方差矩阵和样本相关矩阵作主成分分析,二者的结果有何差异? princomp cov过程,算得样本协方差矩阵为:


数据分析实验报告(5).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:地铁车站临水临电方案

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: