SAS备课笔记 - 简单线性回归、多元线性回归 - 图文

2020-02-21 16:12

2009_SAS备课笔记_回归分析

回归分析-简单线性回归、多元线性回归

比较:方差分析是处理试验数据的一类统计方法。这类统计方法的特点是所考察的指标(因变量)Y是测量得到的数值变量(连续变量),而影响指标的因子(自变量)水平是试验者安排的几个不同值(称这种因子为分类变量或离散变量)。试验的目的是找出影响指标的主要因子及水平。

在实际问题中,还经常遇到这样一些数据,它们不是有意安排的试验得到的数据,而是对生产过程测量记录下来的数据。对它们进行分析,目的是想找出对我们所关心的指标(因变量)Y有影响为因素(也称自变量或回归变量)x1,x2,......,xm,并建立用x1,x2,......,xm预报Y的经验公式。

对于现实世界,不仅要知其然,而且要知其所以然。顾客对商品和服务的反映对于商家是至关重要的,但是仅仅有满意顾客的比例是不够的,商家希望了解什么是影响顾客观点的因素,以及这些因素是如何起作用的。类似地,医疗卫生部门不能仅仅知道某流行病的发病率,而且想知道什么变量影响发病率,如何影响发病率的。发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。

一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。这种关系一般称为模型(model)。假如用Y表示感兴趣的变量,用X表示其他可能与Y有关的变量(x也可能是若干变量组成的向量)。则所需要的是建立一个函数关系Y=f(X)。这里Y称为因变量或响应变量(dependent variable, response variable),而X称为自变量,也称为解释变量或协变量(independent variable,explanatory variable, covariate)。建立这种关系的过程就叫做回归(regression)。

一旦建立了回归模型,除了对各种变量的关系有了进一步的定量理解之外,还可以利用该模型(函数或关系式)通过自变量对因变量做预测(prediction)。这里所说的预测,是用已知的自变量的值通过模型对未知的因变量值进行估计,它并不一定涉及先后的概念,更不必要有因果关系。

回归分析是统计分析的一项重要内容,它可以帮助我们找出变量之间的数量关系。例如,影响企业盈利情况的因素可能包括企业的资产负债率、银行的利率水平、所在国的GDP增长率。对一些企业进行调查之后,我们可以获得企业的盈利情况、资产负债率、利率水平、GDP增长率的数据。使用回归分析就可以得出由资产负债率、银行的利率水平、所在国的GDP增长率三个变量表示的企业盈利水平。作得到了回归结果后,就可以对企业的经营作出一些有用的决策。

SAS/STAT中提供的关于回归的过程很多,包括REG(回归)过程、RSREG(二次响应面回归)过程、ORTHOREG(病态数据回归)过程、NLIN(非线性回归)过程、TRAANSREG(变换同归)过程、CALIS(线性结构方程和路径分析)过程、GLM(一般线性回归)过程、GENMOD(广义线性回归)过程等等。

2009_SAS备课笔记_回归分析

一、回归分析知识点

1. 一元线性回归分析

这里所指的单变量,是针对自变量个数而言的,在不特别说明的情况下,应变量均为单个变量。单变量线性回归为回归分析中最为简单的情形,也是其它类型回归分析的基础。

【例题1】 某医生为了探讨缺碘地区母婴TSH水平的关系,应用免疫放射分析测定了160名孕妇(15-17周)及分娩时脐带血TSH水平(mU/L),现随机抽取10对数据,见下表,分娩时脐带血TSH水平(mU/L)受母血TSH水平的影响,试进行回归分析。(数据编号:data7_01)

10名孕妇及其分娩时脐带血TSH水平 母血TSH 脐带血TSH 1.21 3.90 1.30 4.50 1.39 4.20 1.42 4.83 1.47 4.16 1.56 4.93 1.68 4.32 1.72 4.99 1.98 4.70 2.10 5.20 此例资料中,脐带血TSH水平随母血TSH水平的变化而变化,前者应被看作为应变量,用y表示,后者为自变量,用x表示。编制如下程序。

【SAS程序】

data sasuser.data7_01; input x y@@; datalines;

1.21 3.90 1.30 4.50 1.39 4.20 1.42 4.83 1.47 4.16 1.56 4.93 1.68 4.32 1.72 4.99 1.98 4.70 2.10 5.20 ; proc reg; model y=x; run;

2009_SAS备课笔记_回归分析

虽然reg过程选项、语句复杂,但我们经常用到的一般比较简单,此例即为最简单的情形,达到了reg过程程序代码的最低限度。提交上述程序,结果如下。

结果第一部分为模型的方差分析结果。第二部分给出模型的有关重要统计量,如R(R-Square)、校正R

2

2

(Adj R-Sq)等指标。第三部分为模型的参数估计情况,分别给出截距项和自变量回归系数等的估计值以及对应的假设检验结果。

2009_SAS备课笔记_回归分析

2. 多元线性回归

多元线性回归(multiple linear regression)为线性回归中自变量在两个以上的情形,此时回归模型的选择具有很大的灵活性。对于全部自变量,可以将它们全部放在模型中,也可以只选择其中一部分进行回归分析,而选择变量的途径也有多种,一般常用的有前进法(forward)、后退法(backward)以及逐步回归法(stepwise)。

我们先来看看全模型(将所有变量纳入模型)的回归分析方法。

【例题2】某学校20名一年级女大学生体重(公斤)、胸围(厘米)、肩宽(厘米)及肺活量(升)实测值如下表所示,试对影响女大学生肺活量的有关因素作多元回归分析。(数据编号:data7_02)

20名一年级女大学生肺活量及有关变量测量结果

编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 体重X1(公斤) 51.3 48.9 42.8 55.0 45.3 45.3 51.4 53.8 49.0 53.9 48.8 52.6 42.7 52.5 55.1 45.2 51.4 48.7 51.3 45.2 胸围X2(厘米) 73.6 83.9 78.3 77.1 81.7 74.8 73.7 79.4 72.6 79.5 83.8 88.4 78.2 88.3 77.2 81.6 78.3 72.5 78.2 74.7 肩宽X3(厘米) 36.4 34.0 31.0 31.0 30.0 32.0 36.5 37.0 30.1 37.1 33.9 38.0 30.9 38.1 31.1 30.2 36.5 30.0 36.4 32.1 肺活量Y(升) 2.99 3.11 1.91 2.63 2.86 1.91 2.98 3.28 2.52 3.27 3.10 3.28 1.92 3.27 2.64 2.85 3.16 2.51 3.15 1.92

【SAS程序】(先建立一个SAS数据集,存放上述数据,然后程序可以直接调用。)

proc reg data=sasuser.data7_02; model y=x1 x2 x3; run;

2009_SAS备课笔记_回归分析

从此例的结果中,我们看到并不是所有自变量的回归作用都具有统计学意义,这时我们需要建立一个最优模型,这就要涉及到自变量的选择问题。有关自变量的选择方法有许多种,这些方法也都有各自所依据的评优标准,我们所常用的就是前述的三种方法,其中逐步回归法更是最为常用。

逐步回归法的SAS程序只需在上述程序的model语句后添加“selection=stepwise”选项以及“slentry=”和“slstay=”选项即可。此处我们将进入模型和剔除出模型的门槛都定为α=0.05,model语句如下。

model y=x1 x2 x3 /selection=stepwise slentry=0.05 slstay=0.05;

【SAS程序】

proc reg data=sasuser.data7_02;

model y=x1 x2 x3 /selection=stepwise slentry=0.05 slstay=0.05; run;

【SAS程序运行结果】


SAS备课笔记 - 简单线性回归、多元线性回归 - 图文.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:MB670掘锚机试题

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: