第10章 回归分析

2019-07-30 13:06

第10章 回归分析

摘要:回归分析依自变量个数的多少可分为一元回归和多元回归;根据依变量和自变量之间的关系和性质可分为线性回归和非线性回归。

§10.1 回归分析概述

一、回归分析的任务和 种类

1.回归分析解决哪些问题

当人们从一组对象上获得2个或多个指标的观测值时,往往需要回答下述几个问题:

①如何实现预测,即如何由:1个或多个指标(自变量)的值去推算另1个或多个指标(因变量)的值;

②如何实现控制,即事先给出产品质量应达到的标准(因变量的取值范围),根据变量之间的数量关系去控制那些影响产品质量的因素(自变量)的变化区间;

③如何实现修匀,由于所研究的指标带有变异性,当用散布图将变量之间的关系呈现出来时,散点所形成的轨迹并非像数学中初等函数那样有规律,需要用合适的数学方法(如用直线或某种光滑曲线)对资料进行修匀,使变量之间本质联系更清楚地呈现出来。回归分析正是回答上述问题的一种最常用最有效的统计分析方法之一。

2.回归分析的种类

如果因变量是连续变量(即一般定量资料),设自变量的个数为K,当k=1时,回归分析的种类有:

①直线回归分析;

②通过直线化实现的简单曲线回归分析(以下简称为曲线拟合); ③非线性曲线拟合; ④一般多项式曲线拟合;

⑤正交多项式曲线拟合。当k≥2时,称为多元回归分析(注:前面的④、⑤两种情况实质上是用多元回归分析解决只含:个自变量时较复杂的曲线拟合问题)。当同时对多个因变量进行回归分析时,称之为多重回归分析。

在多元回归分析中,简单而又实用的则是多元线性回归分析(其中某些自变量可以是原观测指标经过某种初等变换的结果,如对数变换、开平方根变换等,因为这里所说的线性是指:函数f(X)相对于回归参数是线性的,并非相对于自变量而言)。

10-1

如果因变量是与生存时间有关的连续变量且未被离散化(如:生存时间、复发时间、死亡时间等),而自变量可以是定量的,也可以是定性的。此时需用生存分析中的半参数或参数回归分析方法。

如果因变量是有序变量,无论它取2个离散值(如:死与活、复发与未复发等)还是多个离散值(自变量可以是定性和定量的)时,都可选用logistic回归分析;如果把列联表中每个格内的理论频数的对数当作因变量,把分组变量(包含影响因素和观测结果变量两类)当作自变量,可用对数线性模型分析。

在自变量代表时间的情况下,通常不假定因变量Y的各次观察值独立,而具有某种非独立的结构,例如构成一平稳序列。这种回归模型的研究被划入统计学的另一个重要分支——时问序列统计分析的范围。

二、直线回归与相关分析的概念和要点

1.两种分析方法的异同点

研究在专业上有一定联系的两个变量之间是否存在直线关系以及如何求得直线回归方程等问题,需进行直线相关和回归分析。从研究的目的来说,若仅仅为了了解两变量之间呈直线关系的密切程度和方向,宜选用线性相关分析;若仅仅为了建立由自变量推算因变量的直线回归方程,宜选用直线回归分析。从资料所具备的条件来说,作相关分析时要求两变量都是随机变量(如:人的身高与体重、血硒与发硒);作回归分析时要求因变量是随机变量,自变量可以是随机的,也可以是一般变量(即可以事先指定变量的取值,如:用药的剂量)。 2.散布图在这两种分析中的作用

功能齐全的统计软件,会蒙骗盲目运用统计方法的人,进行直线相关和回归分析时,尤其要注意。因为统计方法只能帮助人们揭示数据之间内在的统计规律性,而不能创造规律,也就是说,资料之间是否存在本质联系要靠专业知识来解释。另外,在专业上有一定联系的2项指标之间的关系并非都是直线关系。实事上,如果2项指标之间呈一条弯曲度不大的“S”型或反“S”型曲线趋势,错误地用一条直线回归方程来描述,在统计学上往往会得到较高的显著性,即该直线回归方程是成立的,但在生物学上是解释不通的(当因变量是某种率时最易发生这种现象)。正确的做法是:将(X,Y)的n对数值绘在直角坐标系内,得到X与Y变化趋势的散布图,如果n个点形成的散布图呈一条明显的曲线趋势时,宜拟合一条曲线回归方程;如果n个点在一条不太宽的长带内随机地分布着,且不存在明显的曲线趋势,可考虑进行直线相关和回归分析;如果n个点形成的散布图近似于一个圆盘,则说明X与Y之间无确定的变化趋势,几乎是互相独立的,不必硬把它们捏合在一起分析。

10-2

§10.2 一般线性回归分析过程REG

REG过程是进行一般线性回归分析通用的过程,该过程采用最小二乘法拟合线性模型,可以有多个模型(MODEL)语句,输入数据可以是原始样本数据,也可以是相关阵,可输出有关数据的描述统计量、参数估计值、预测值、残差、置信区间等,并可作线性假设测验,这些统计结果可输出到一个新的SAS数据集中。

一、过程格式

PROC REG选择项;

Label:MODEL依变量表=自变量表/选择项; BY变量表; FREQ变量; WEIGHT变量; ID 变量; VAR变量表;

OUTPUT OUT:输出数据集 关键字=新变量表;

PRINT选择项

二、语句说明

程序中全部语句中只有第一行和MODEL语句是必需的,其他均为可选择语句。 1.MODEL语句,必需语句,定义回归分析模型 2.VAR语句为可选的,指定用于计算交叉积的变量

3.PLOT语句为可选的,用于绘制变量间的散点图,还可添加回归线。

【PROC REG过程选项】

OUTEST=数据集名 指定统计量和参数估计输出的新数据集名。 NOPRINT 禁止统计结果在OUTPUT视窗中输出。

SIMPLE 输出REG过程中所用的每个变量的基本统计量。

CORR 输出MODEL语句或VAR语句中所列变量的相关矩阵。

ALL 等价于MODEL语句加上全部选项,即输出该语句所有选项分析结果。

【MODEL语句】

MODEL语句定义模型中的因变量、自变量、模型选项及结果输出选项。语

句中的变量只能是数据集中的变量,任何形式的变换都必须先产生一个新变量,然后用于分析。如X1的二次项,不能在模型中直接指定X1*X1,而要产生另一个新变量代表X1*X1,方可引入模型。

MODEL语句中常用的选项有:

? NOINT在模型中不拟合常数项。 ? STB 输出标准偏回归系数。

10-3

CLI 输出个体预测值的95%可信区间上下限。

CLM 输出因变量期望值(均值)的95%可信区间上下限。 R 输出个体预测值、残差及其标准误。

P 输出实际值Yi、预测值 和残差等。如已选择了CLI、CLM和R,则无需选择P。

【关键字】

REG过程中OUTPUT语句的用法和UNIVARIATE过程中的用法相同,只是会用到另一些关键字。关键字用来定义需要输出到新数据集中的统计量,常用的关键字及其含义有:

PREDICTED 因变量预测值(简写为P) RESIDUAL 残差(简写为R)

L95M、U95M 均数95%可信区间上下限 L95、U95 个体预测值95%可信区间上下限 STDP 期望值的标准误 STDR 残差的标准误 STDI 预测值的标准误

STUDENT 学生化残差(即残差与标准误之比) 【PRINT语句】

PR1NT语句指定打印分析结果。其选择项主要有三类:

①MODEL语句中的控制模型参数和预测值输出的选择项,如STB等; ②ANOVA输出当前模型的方差分析表;

③MODELDATA输出模型中使用的变量数据。 【与PROC REG语句配合应用的其他常用语句】 BY语句对BY指定的变量分组分别进行分析。其应用前提是数据集中的数据必须先籍PROC SORT过程,按BY指定的变量表进行排序。

FREQ语句用于指定在数据集中表示观察值发生次数的变量,当进行显著性测验计算自由度时,观测总数将等于FREQ语句指定变量的数值之和。

WEIGHT语句用于指定在数据集中表示观察值权重的变量,即权变量。 ID语句要求在输出结果时,用ID指定的变量取代观察值序号。

VAR语句要求将那些在MODEL语句中未用的数值变量也一起包括在向量叉积矩阵中,此选项必须与OUTSSCP选项并用。

? ? ? ?

§10.3 一元线性回归

若x和y变量之间存在相关关系,依变量y在某种程度上是随自变量x值的变化而变化的,那么可以用y=a+bx直线方程来定量地描述两个变量的线性函数关系。有多个SAS过程能够进行一元线性回归,其中较常用的是REG过程和GLM过程。

10-4

一些简单的非线性方程,也可通过线性化转变成一元线性方程,然后进行线性回归分析。

10.3.1 一元线性回归

例10.1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进县测定1956~1964年3月下旬至4月中旬旬平均温度累积值(x,单位:旬.度)和一代三化螟蛾盛发期(y,以5月10日为0)的数据见表10.1,试计算x和y的相关系数和决定系数。

表10.1 累积温和一代三化螟蛾盛发期的关系数据

X累积温 Y盛发期 35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1 ? 程序 DATA new;

INPUT x y@@;

CARDS;

35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2 -1 PROC REG; MODEL y=x; PROC GLM; MODEL y=x; RUN;

? 输出结果

The REG Procedure

Model: MODEL1 Dependent Variable: y Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Pr > F Model 1 174.88878 174.88878 16.40 0.0049 Error 7 74.66678 10.66668 Corrected Total 8 249.55556

Root MSE 3.26599 R-Square 0.7008 Dependent Mean 7.77778 Adj R-Sq 0.6581 Coeff Var 41.99128

Parameter Estimates

Parameter Standard

Variable DF Estimate Error t Value Pr > |t| Intercept 1 48.54932 10.12779 4.79 0.0020 x 1 -1.09962 0.27157 -4.05 0.0049

The GLM Procedure

Number of observations 9 The GLM Procedure

10-5


第10章 回归分析.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:城市管理执法大队养犬管理专项整治工作总结

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: