第十一章 多元线性回归与logistic回归
一、教学大纲要求
(一)掌握内容
1.多元线性回归分析的概念:多元线性回归、偏回归系数、残差。
2.多元线性回归的分析步骤:多元线性回归中偏回归系数及常数项的求法、多元线性回归的应用。
3.多元线性回归分析中的假设检验:建立假设、计算检验统计量、确定P值下结论。 4.logistic回归模型结构:模型结构、发病概率比数、比数比。 5.logistic回归参数估计方法。
6.logistic回归筛选自变量:似然比检验统计量的计算公式;筛选自变量的方法。 (二)熟悉内容
常用统计软件(SPSS及SAS)多元线性回归分析方法:数据准备、操作步骤与结果输出。
(三)了解内容
标准化偏回归系数的解释意义。
二、教学内容精要
(一) 多元线性回归分析的概念
将直线回归分析方法加以推广,用回归方程定量地刻画一个应变量Y与多个自变量X间的线形依存关系,称为多元线形回归(multiple linear regression),简称多元回归(multiple regression)
基本形式:
??b?bX?bX?????bX Y01122kk?为各自变量取某定值条件下应变量均数的估计值,X,X,…,X为自变量,k为式中Y12k
自变量个数,b0为回归方程常数项,也称为截距,其意义同直线回归,b1,b2,…, bk称为偏回归系数(partial regression coefficient),bj表示在除Xj以外的自变量固定条件下,Xj每改变一个单位后Y的平均改变量。
(二) 多元线性回归的分析步骤
?是与一组自变量X,X,…,X相对应的变量Y的平均估计值。 Y12k
多元回归方程中的回归系数b1,b2,…, bk可用最小二乘法求得,也就是求出能使估计
22??值Y和实际观察值Y的残差平方和?ei??(Y?Y)为最小值的一组回归系数b1,b2,…,
bk值。根据以上要求,用数学方法可以得出求回归系数b1,b2,…, bk的下列正规方程组
(normal equation):
98
?b1l11?b2l12???bkl1k?l1y??b1l21?b2l22???bkl2k?l2y ?
??b1lk1?b2lk2???bklkk?lky?式中
lij?lji??(Xi?Xi)(Xj?Xj)??XiXj? liy?(?Xi)(?Xj)n
?(Xi?Xi)(Y?Y)??XiY?(?Xi)(?Y)n常数项b0可用下式求出:
b0?Y?b1X1?b2X2???bkXk
(三)多元线性回归分析中的假设检验
在算得各回归系数并建立回归方程后,还应对此多元回归方程作假设检验,判断自变量X1,X2,…,Xk是否与Y真有线性依存关系,也就是检验无效假设H0(?1??2??3???k?0), 备选假设H1为各?j值不全等于0或全不等于0。
检验时常用统计量F
MS回归l回归k F??MS误差l误差(n?k?1)式中n为个体数,k为自变量的个数。
式中 l回归?b1l1y?b2l2y???bklky
l误差?l总?l回归
l总???Y?Y??lyy
2(四) logistic回归模型结构
设X1,X2,?,Xk为一组自变量,Y为应变量。当Y是阳性反应时,记为Y=1;当Y是阴性反应时,记为Y=0。用P表示发生阳性反应的概率;用Q表示发生阴性反应的概率,显然P+Q=1。
Logistic回归模型为:
e?0??1X1??2X2????kXkP?1?e?0??1X1??2X2????kXk同时可以写成:
Q?11?e?0??1X1??2X2????kXk
式中?0是常数项;?j(j?1,2,,k)是与研究因素Xj有关的参数,称为偏回归系数。 事件发生的概率P与?x之间呈曲线关系,当?x在???,??之间变化时, P或Q在(0,1)之间变化。
若有n例观察对象,第i名观察对象在自变量Xi1,Xi2,?,Xik作用下的应变量为Yi,阳性
99
反应记为Yi=1,否则Yi=0。相应地用Pi表示其发生阳性反应的概率;用Qi表示其发生阴性反应的概率,仍然有Pi+Qi=1。Pi和Qi的计算如下:
e?0??1Xi1??2Xi2???kXikPi?1?e?0??1Xi1??2Xi2???kXik1Qi?1?e?0??1Xi1??2Xi2???kXik比取自然对数得到关系式:
ln??
这样,第i个观察对象的发病概率比数(odds)为PiQi,第l个观察对象的发病概率比数为PlQl,而这两个观察对象的发病概率比数之比值便称为比数比OR(odds ratio)。对比数
?PiQi????1(Xi1?Xl1)??2(Xi2?Xl2)????k(Xik?Xlk) ??PlQl?等式左边是比数比的自然对数,等式右边的Xij?Xlj???j?1,2,?,k?是同一因素Xi的不同
暴露水平Xij与Xlj之差。?j的流行病学意义是在其它自变量固定不变的情况下,自变量Xj的暴露水平每改变一个测量单位时所引起的比数比的自然对数改变量。或者说,在其他自变量固定不变的情况下,当自变量Xj的水平每增加一个测量单位时所引起的比数比为增加前的e?j倍。同多元线性回归一样,在比较暴露因素对反应变量相对贡献的大小时,由于各自变量的取值单位不同,也不能用偏回归系数的大小作比较,而须用标准化偏回归系数来做比较。标准化偏回归系数值的大小,直接反映了其相应的暴露因素对应变量的相对贡献的大小。标准化偏回归系数的计算,可利用有关统计软件在计算机上解决。
(五)logistic回归参数估计
由于logistic回归是一种概率模型,通常用最大似然估计法(maximum likelihood estimate)求解模型中参数?j的估计值bj(j?1,2,,k)。
Y为在X1,X2,?,Xk作用下的阳性事件(或疾病)发生的指示变量。其赋值为:
应?1,第i个观察对象出现阳性反 Yi??
0,第i个观察对象出现阴性反应?第i个观察对象对似然函数的贡献量为:
Yi1?Yili?PQ ii当各事件是独立发生时,则n个观察对象所构成的似然函数L是每个观察对象的似然函数贡献
量的乘积,即
L??li??PiYiQi1?Yi
i?1i?1nn式中∏为i从1到n的连乘积。
依最大似然估计法的原理,使得L达到最大时的参数值即为所求的参数估计值,计算时通常是将该似然函数取自然对数(称为对数似然函数)后,用Newton—Raphson迭代算法求
100
解参数估计值bj(j?1,2,?,k)。
(六)logistic回归筛选自变量
在logistic回归中,筛选自变量的方法有似然比检验(likelihood ratiotest)、计分检验(score test)、Wald检验(Wald test)三种。其中似然比检验较为常用,
用Λ表示似然比检验统计量,计算公式为:
??2lnL'L?2(lnL'?lnL)
'式中ln为自然对数的符号,L为方程中包含m(m?k)个自变量的似然函数值,L为在方程中包含原m个自变量的基础上再加入1个新自变量Xj后的似然函数值。在无效假设H0条件下,
统计量Λ服从自由度为1的?2分布。当??即可剔除自变量。
2则在?水平上拒绝无效假设,即认为Xj??(1)时,
??对回归方程的贡献具有统计学意义,应将Xj引入到回归方程中;否则,不应加入。逆向进行
三、典型试题分析
(一)单项选择题
1.多元线性回归分析中,反映回归平方和在应变量Y的总离均差平方和中所占比重的统计量是( )。
A. 复相关系数 B. 偏相关系数 C. 偏回归系数 D. 确定系数 答案:D
[评析] 本题考点:多元线性回归中的几个概念的理解。
多元线性回归中的偏回归系数(multiple linear regression)表示在其它自变量固定不变的情况下,自变量Xj每改变一个单位时,单独引起应变量Y的平均改变量。确定系数(coefficient of determination)表示回归平方和SS回归占总离均差平方和SS总的比例,简记为R。即
2R2?SS回归SS总。确定系数的平方根即R称为复相关系数(multiple correlation coefficient),
它表示p个自变量共同对应变量线性相关的密切程度,它不取负值, 即0≤R≤1。
2.Logistic回归分析适用于应变量为( )。
A.分类值的资料 B.连续型的计量资料 C.正态分布资料 D.一般资料
答案:A
[评析] 本题考点:logistic回归的概念。
logistic回归属于概率型回归,可用来分析某类事件发生的概率与自变量之间的关系。适用于应变量为分类值的资料,特别适用于应变量为二项分类的情形。模型中的自变量可以是定性离散值,也可以是计量观测值。
(二)计算题
根据表11-2数据,分别用SPSS统计软件、SAS统计软件写出多元线性回归的统计分
101
析步骤及其简要结果。
表11-1 某学校20名一年级女大学生肺活量及有关变量测量结果
编号 体重X1/kg 胸围X2/cm 肩宽X3/cm 肺活量Y/L
1 50.8 73.2 36.3 2.96 2 49.0 84.1 34.5 3.13 3 42.8 78.3 31.0 1.91 4 55.0 77.1 31.0 2.63 5 45.3 81.7 30.0 2.86 6 45.3 74.8 32.0 1.91 7 51.4 73.7 36.5 2.98 8 53.8 79.4 37.0 3.28 9 49.0 72.6 30.1 2.52 10 53.9 79.5 37.1 3.27 11 48.8 83.8 33.9 3.10 12 52.6 88.4 38.0 3.28 13 42.7 78.2 30.9 1.92 14 52.5 88.3 38.1 3.27 15 55.1 77.2 31.1 2.64 16 45.2 81.6 30.2 2.85 17 51.4 78.3 36.5 3.16 18 48.7 72.5 30.0 2.51 19 51.3 78.2 36.4 3.15 20 45.8 75.0 32.5 1.94 答案:
SPSS:数据文件:“EXAP11—2.sav”。 数据格式:4列20行。过程: Statistic
Regression Linear...
Dependent:Y
Independent(s):X1,X2,X3
Method: Enter 结果:
Variables Entered/Removed Model Variables Entered Variables Removed 1 . X3(肩宽), Method Enter X2(胸围), X1(体重) a All requested variables entered. b Dependent Variable: Y(肺活量)
102