秩相关把计量资料变为等级资料处理,丢失了部分信息。使用时应注意,能用直线相关(积差法)的尽量不使用秩相关;要进行回归分析的资料,更不宜作秩相关。
5.相关分析的任务:是分析两个变量间相互关系的密切程度和方向。 回归分析的任务:是分析两变量间的依存变化的数量关系。 6.回归分析的应用条件?
(1)线性(linear)反应变量Y的总体平均值与自变量X呈线性关系,可通过散点图判断。
(2)独立性(independent) 指任意两个观察值互相独立,可利用专业知识来判断。
(3)正态性(normal) 在一定范围内任意给定X值,则对应的随机变量Y服从正态分布,可通过专业知识、正态性检验、残差散点图来判断。
(4)等方差性(equal variance) 在一定范围内对应于不同X值,Y总体变异程度相同,可通过残差分析来判断。
五、应用题
1.经统计软件分析,双变量正态分布,符合直线相关条件。计算得到相关系数为0.98 ,P<0.0001,拒绝H0,接受H1,认为高中与大学的英语成绩之间有直线正相关关系。
2.(1)画图略
(2)经SPSS软件,首先进行正态性检验,得知双变量为正态分布。计算相关系数r=0.8677, P<0.01,拒绝H0,接受H1,认为身长与胸围之间有直线正相关关系。
(3)经SPSS软件计算,由身长(x)推算胸围(y)的回归方程式为: ?=a+bx = 18.75 + 0.3408x 3.(1)画出散点图略
(2)经正态性检验两变量均为正态分布,故应用简单相关分析:r=0.99,
p<0.0001说明两变量间高度相关
(3)求出回归方程y?-0.39+2.29x
(4)估计出利润率为4.19%
4.该资料为等级资料,故应用秩相关分析:r=0.93,p<0.0001说明两变量间高度相关。
第十四章
一、单项选择题
1.B 2.D 3.D 4.E 5.C 6.E 7.C 8.B 9.E 10.B 二、简答题
1.典型的多重线性回归所使用的自变量类型应该是连续型定量变量,但是如果自变量中含有分类变量,经过适当的处理后仍然适合进行回归分析,二分类变量可以直接使用,名义分类变量可将其转化为若干个二分类变量(哑变量),有序分类变量可以根据不同级别赋予不同数值后按连续变量处理,也可按名义变量的方式处理。
2.回归方程中引入什么变量,理想的做法是由研究者根据理论和经验决定。在缺乏专业依据的情况下,可采用变量筛选技术。一为全局择优法,二为逐步择优法,理论上讲,全局择优法是对自变量各种不同组合情况进行比较后,从中挑选出一个最优回归方程,但当自变量数目较大时计算量大,此时可以考虑采用逐步择优法,有前进法、后退法和逐步回归法。
3.偏回归系数的意义是当其他自变量固定时,某自变量Xj每改变一个计量单位所引起的Y的平均变化量。如研究者感兴趣各自变量对反应变量贡献大小的相互比较,由于各自变量的计量单位及变异度可能不同,回归方程中各自变量的偏回归系数不具可比性。为此可将原始观测数据进行标准化,然后用标准化后的数据拟合回归方程,此时所获得的回归系数称为标准化偏回归系数。标准化偏回归系数绝对值越大,所对应的自变量对反应变量Y的影响越大。
4.多重线性回归具有与简单线性回归相同的前提条件:线性、独立性、正态性和等方差,即LINE。但是上述前提条件在进行回归分析之前难以直接考察,通常是在回归方程确定之后通过残差分析来核查。
三、计算分析题
整体回归方程假设检验的方差分析表
变异来源 回归 残差 总
偏回归系数的t检验
变量 常数项 年龄 文化程度 婚姻 慢性病
回归系数 1.880 0.067 0.210 1.221 1.791
标准误 1.398 0.025 0.161 0.867 0.457
t值 1.35 2.65 1.31 1.41 3.92
P值 0.191 0.014 0.202 0.171 0.001
标准化偏回归系数
- 0.677 0.183 0.382 0.599
SS
33.883 30.417 64.300
df 4 25 29
MS
8.471 1.217
F
6.96
P
0.001
?列出回归方程:Y?1.880?0.067x1?0.210x2?1.221x3?1.791x4
经假设检验,总体模型有意义,说明整体而言,这四个变量建立的方程解释反应变量有统计学意义。但只有年龄、慢性病的偏回归系数假设检验有统计学意义。原则上应考虑回归方程的实际意义,建立包含有统计学意义自变量的回归方程。
第十五章
一、单项选择题
1.D 2.E 3.D 4.D 5.A 二、简答题
1. logistic回归与多重线性回归的区别:
(1)反应变量的类型不同:logistic回归适用于反应变量为分类变量的资料,多重线性回归适用于反应变量为连续性定量变量的资料。
(2)模型的基本形式不同:logistic回归模型的基本形式为,
PlogiPt)(?ln()??0??1X1??2X2?..?.?mXm,多重线性回归模型的基本形
1?P式为,?Y??0??1X1??2X2??????mXm。
(3)回归模型的参数估计方法不同:logistic回归模型采用极大似然估计法估计参数;多重线性回归模型采用最小二乘法估计参数。
(4)模型和回归系数的的假设检验方法不同:logistic回归采用似然比法对模型整体进行假设检验,采用wald?2检验对每个回归系数假设检验;多重线性回归采用方差分析对模型整体进行假设检验,采用t检验对每个回归系数假设检验。
2. logistic回归主要用途是筛选危险因素、调整或校正混杂因素及预测和判别。
3. logistic回归系数?与优势比OR的关系为??ln(OR),回归系数?i的解释为其他自变量不变时,自变量Xi每增加1个单位得到的优势比OR的自然对数。
??0,OR?1,自变量(因素)为危险因素;??0,OR?1,因素为保护因素;??0,OR?1,因素与结局无关联。
三、分析题 1.
(1)列出logistic回归模型为
logit(P)??0.0238?0.8203X1?0.9803X2?0.4227X3
(2)解释各回归系数的含义
年龄(X1)的回归系数?1?0.8203,OR1?2.2713,解释为:年龄每增加1岁,老年人患糖尿病的危险性增加,患糖尿病的可能性是不患病的2.2713倍;糖尿病家族史(X2)的回归系数?2?0.9803,OR2?2.6654,解释为:有糖尿病家族史相比无家族史者,患糖尿病的危险性增加,有家族史者患糖尿病的可能性是无家族史者患病可能性的2.6654倍;BMI(X3)的回归系数?3?0.4227,
OR3?1.5261,解释为:BMI每增加一个等级,患糖尿病的危险性增加,BMI等级高者患糖尿病的可能性是低一个等级者患病可能性的1.5261倍。
2.
(1)找出有统计学意义的影响因素
按??0.10的检验水准,多因素logistic回归分析中对骨质疏松患病有影响的因素为承担家务量、体质指数BMI、绝经年限和身高缩减量。
(2)解释各回归系数的含义
控制或调整其他自变量(影响因素)作用后,承担家务量对是否患骨质疏松有影响,相比承担家务量少者,承担家务量较少和中等者更不容易患骨质疏松,
而承担家务量较多和多者,患骨质疏松的可能性与家务量少者相比,差异无统计学意义。体质指数BMI越大者更不容易患骨质疏松。而绝经年限越长,身高缩减量越大更容易患骨质疏松。
第十六章
一、单项选择题 1.C 2.B 3.A 二、简答题
1.主成分个数的确定方法一是按照特征值的大小,通常会保留大于特征值1的主成分;另外一个是根据累计贡献率,考虑实际问题的需要确定累计贡献率标准。
2.因子旋转的目的是使因子载荷的绝对值差别尽可能大,理想状况是某些因子载荷接近±1,而另外的因子载荷接近0,使各指标和因子的关系变得清楚。
3.聚类分析是事先不知道研究对象的类别,是根据研究对象的某些特征进行归类的一种统计方法。而判别分析则是事先知道研究对象的类别,然后根据研究对象的观测指标建立判别函数,以用于对新研究对象进行类型识别的一种统计方法。
4.结构方程模型一般按以下五个基本步骤进行:(1)模型设定;(2)模型识别;(3)模型估计;(4)模型评价和模型修正;(5)模型解释。 三、计算分析题
1.采用系统聚类分析方法。从图16-37中可清楚地看出整个聚类过程和聚类效果,可将这80个10岁男孩分成3群。P4、8、9、21-24、26、28、30-34、36、37、39、40、43、45-47、49-52、55、59、63、67、68、80聚为一群,P1-3、5-7、10-20、25、27、29、38、41、42、44、48、53、54、56-58、60、61、65、66、69-79聚在另一群,35、62、64聚为第三群。