考试方式:
《应用数理统计》包括(1)在《实用统计方法》教材或这里所列的部分习题中完成5题(题目要至少分散在3章以上)写出计算程序计算结果,用doc或pdf文档发送到 zhang-hh@zju.edu.cn,占30%;(2)结合自己的专业,写一篇统计方法的应用,或介绍一些新的统计方法等小论文,篇幅不限,论文要标注参考文献,占70%。 《数据统计分析》包括(1)在《实用统计方法》教材或这里所列的部分习题中完成5题(题目要至少分散在3章以上)写出计算程序计算结果,用doc或pdf文档发送到zhang-hh@zju.edu.cn,占30%;(2)闭卷或开卷考试,占70%。
参考教材:《实用统计方法》 西安交通大学 梅长林等 科学出版社 2002。 部分习题
第一章 多元回归分析
1.4某种化工产品的得率Y与反应温度X1,反应时间X2 及某反应温度X3 有关。设对于给
定的X1,X2,X3,得率Y服从正态分布且方差为常数。近得实验结果如下,其中X1,X2,X3 均为两水平变量且编码形式表达。 i 1 -1 -1 -1 7.6 2 -1 -1 1 10.3 3 -1 1 -1 9.2 4 -1 1 1 10.2 5 1 -1 -1 8.4 6 1 -1 1 11.1 7 1 1 -1 9.8 8 1 1 1 12.6 Xi1 Xi2 Xi3 Yi
(1)对Y,拟合以X1,X2,X3为自变量的线性回归模型,求出回归参数估计值及残差。 (2)给定显著水平??0.05,检验回归系数的显著性。 (3)对??0.05,检验各自变量对Y的影响的显著性。
1.7为了研究人们对某种品牌食品的喜爱程度Y和该食品的水分含量X1,甜度X2的关系,,
进行了一个完全随机化设计的小规模试验,得到下列数据:
i 1 4 2 64 2 4 4 73 3 4 2 61 4 4 4 76 5 6 2 72 6 6 4 80 7 6 2 71 8 6 4 83 9 8 2 83 10 8 4 89 11 8 2 86 12 8 4 93 13 10 2 88 14 10 4 95 15 10 2 16 10 4 Xi1 Xi2 Yi 94 100
(1) 拟合回归模型
Yi??0??1Xi1??2Xi2??i,
?写出回归方程,问其中的
?1如何解释。
?(2) 求出残差向量,分别作出残差关于拟合值Y, X1, X2及X1X2的残差图及残差
的正态概率图。分析这些残差图并给出你的评述。
(3) 设误差项?i?i?1,2,?16?独立同分布于N?0,?2在??,
?0.01的水平上检验回归
关系的显著性。写出假设、检验准则及结论并求检验的p-值。
T(4) 在(3)中关于?i的假定下,对自变量一组新的观察值 Xnew??5,4?,给出Y的
预报值的99%置信区间。
(5) 拟合Y关于X1的一元线性回归模型,写出回归方程。将X1的回归系数与(1)中
所求得的X1的回归系数作比较,你有什么结论。
(6) SSR?X1?和SSR?X1X2?是否相等?二者的意义有何不同?
1.8 某科学基金会的管理人员希望估价从事数学研究工作的中等或较高水平的数学家的
年工资额Y与他们的研究成果(论文、著作等)的质量指标X1,从事研究工作的时间X2 以及能成功获得资助的指标X3之间的关系。为此按一定的试验设计方法调查了24位此类型的数学家,得到下列数据: i 1 2 3 4 5 6 7 8 9 10 11 12
Xi1 3.5 9 6.1 33.2 13 8.0 23 7.6 43.3 5.3 20 6.4 40.3 14 6.5 35 7.0 44.1 5.1 18 7.4 38.7 15 6.6 39 5.0 42.8 5.8 33 6.7 46.8 16 3.7 21 4.4 33.6 4.2 31 7.5 41.4 17 6.2 7 5.5 34.2 6.0 13 5.9 37.5 18 7.0 40 7.0 48.0 6.8 25 6.0 39.0 19 4.0 35 6.0 38.0 5.5 30 4.0 40.7 20 4.5 23 3.5 35.9 3.1 5 5.8 30.1 21 5.9 33 4.9 40.4 7.2 47 8.3 52.9 22 5.6 27 4.3 36.8 4.5 25 5.0 38.2 23 4.8 34 8.0 45.2 4.9 11 6.4 31.8 24 3.9 15 5.0 35.1 Xi2 Xi3 Yi i Xi1 Xi2 Xi3 Yi
(1)对Y关于X1,X2,X3,拟合线性回归模型,写出回归方程。
?(2)求出残差向量,分别作出残差关于Y, X1,X2,X3及两自变量交叉项的残差图及残差的正态概率图。分析这些残差图,评述你的看法。 (3)设误差项?i独立同分布于N?0,?相关系数R2值并解释其意义。
(4)在(3)中对误差项分布的假定下,分别给出回归参数?1,?2,?3的置信度为95%的置信区间。
(5)在(3)中对误差项分布的假定下,对??0.01,检验假设?1??3。 (6)对各自变量的观测数据作如下变换(成为相关变换):
'??1?Yi?Y?n?1?sY?2?,对??0.05,检验回归关系的显著性,计算复
Yi???'X??, ik??_??1?Xik?Xk?skn?1????,k?1,2,3 ???_其中 Y?1niY?ni?1, Xk?21n?ni?1Xik,k?1,2,3.
2 s?2Y1n?1n?i?1__1????2?Yi?Y?,sk??Xik?Xk? ?n?1i?1????n
然后,对数据(Yi?,Xi?1,Xi?2,Xi?3)?i?1,2,?24?拟合线性回归模型。此时回归系数估计如何解释?并推导在变换数据下得到的回归参数估计和(1)中得到的相应估计的关系。
1.9 某医院管理工作者希望了解病人对医院工作的满意程度Y和病人的年龄X1,病情的严
重程度X2和忧虑程度X3之间的关系。她随机地选取了23位病人,得到下列数据:
i 1 50 51 2.3 48 13 38 55 2.2 47 2 36 46 2.3 57 14 34 51 2.3 51 3 40 48 2.2 66 15 53 54 2.2 57 4 41 44 1.8 70 16 36 49 2.0 66 25 28 43 1.8 89 17 33 56 2.5 79 6 49 54 2.9 36 18 29 46 1.9 88 7 42 50 2.2 46 19 33 49 2.1 60 8 45 48 2.4 54 20 55 51 2.4 49 9 52 62 2.9 26 21 29 52 2.3 77 10 29 50 2.1 77 22 44 58 2.9 52 p11 29 48 2.4 89 23 43 50 2.3 60 12 43 53 2.4 67 Xi1 Xi2 Xi3 Yi i Xi1 Xi2 Xi3 Yi (1)通过穷举法分别利用准则?i?Rp,?ii?MSEp,?iii?Cp 和?iv?PRESS选择最优回归方
程,并作出相应的图以支持你的判断。四个准则下的最优回归方程是否一致?
(2)给定FE?3.0及 FD?2.9,试用逐步回归法选择最优回归方程,其结果和(1)中的结果是否相同?
(3)对所选取的回归方程作进一步的精细分析。
第二章 主成分分析及典型相关分析
2.4下表是美国最大的10家工业公司在某时期内的销售额x1和利润x2的数据(单位:兆美
元): 公司名称 General Motors Ford Exxon
销售额x1 126974 96933 86656 利润x2 4224 3835 3510
IBM General electric Mobile Philip Morris Chrysler du Pont Texaco 由此数据可求得 x??9?6230??,
?2927?63438 55264 50976 39069 36156 35209 32416 3758 3939 1809 2946 359 2480 2413 ?10005.20255.76?5, S???10?14.30??255.76(1) 求x1,x2的样本主成分y1和y2及主成分的样本方差,计算各样本主成分的贡
献率。
(2) 求第一样本主成分y1的观测值并予以排序,它是否基本上反映了原数据的特
性?
2.5 变换第4题中的样本协方差矩阵S为样本相关矩阵R,
(1)求标准化样本的主成分及其样本方差,各主成分的贡献率。和第4题(1)中的结果相比有何变化?
(2)求标准化样本的第一主成分的观测值并排序,它和第4题(2)中的结果相比有何变化? (3)就所给的数据,你认为从样本协方差矩阵出发求主成分合理呢,还是从样本阵出发求主成分合理?解释你的观点。
2.7 下表是某城市在42天中的中午十二点的空气污染数据:
风速(x1) 太阳辐射(x2) 8 7 7 10 6 8 9 5 7 8 6 6 7
CO?x3? NO?x4? NO2?x5? O3?x6? HC?x7? 98 107 103 88 91 90 84 72 82 64 71 91 72 7 4 4 5 4 5 7 6 5 5 5 4 7 2 3 3 2 2 2 4 4 1 2 4 2 4 12 9 5 8 8 12 12 21 11 13 10 12 18 8 5 6 15 10 12 15 14 11 9 3 7 10 2 3 3 4 3 4 5 4 3 4 3 3 3