Dependent Variable: y
Sum of
Source DF Squares Mean Square F Value Pr > F Model 1 174.8887762 174.8887762 16.40 0.0049 Error 7 74.6667793 10.6666828 Corrected Total 8 249.5555556
R-Square Coeff Var Root MSE y Mean 0.700801 41.99128 3.265989 7.777778
Source DF Type I SS Mean Square F Value Pr > F x 1 174.8887762 174.8887762 16.40 0.0049 Source DF Type III SS Mean Square F Value Pr > F x 1 174.8887762 174.8887762 16.40 0.0049 Standard
Parameter Estimate Error t Value Pr > |t| Intercept 48.54931936 10.12778626 4.79 0.0020 x -1.09962204 0.27156710 -4.05 0.0049
REG过程输出的结果中,给出了方差分析表,F值为16.396(Prob=0.0049)。离回归标准误(Root MSE)为3.26599,决定系数(R-square)为0.7008,调整后的R2( Adj R-sq)为0.6581,变异系数(C.V.)为41.99128。参数估计部分(Parameter Estimates)给出了截距及斜率参数的估计值及显著性测验结果,拟合的直线方程为:y=48.549319-1.099622x
GLM过程拟合的结果与REG过程相近。
T for H0:Parameter=0(测验H0:参数为0的t值)用于测验参数估计是否显著的不为0。其值为参数估计除以标准误差。Prob>|T|给出对应t值的显著性概率P值。本例中两者的概率均小于0.01,有极显著的意义。
例10.2 一元一次及二次回归。
测得某种液体的热容量Y和温度调的数据,试确定X与Y的关系式。程序如下:
TITLE \一元一次及二次回归\
DATA CT; INPUT X Y@@; XSQ=X*X; CARDS;
5 1.0029 10 1.0013 15 1.0001 20 0.9990 25 0.9981 30 0.9979 35 0.9978 40 0.9981 45 0.9987 50 0.9996 PROC REG;
MODEL Y=X/P CLI; MODEL Y=X XSQ/P CLI;
OUTPUT OUT=CXX P=PRED L95=L95 U95=U95; PROC PLOT DATA=CXX;
PLOT PRED*X=\
10-6
RUN;
程序中建立了两个Y与X的关系式: Y=a+bX 及Y=a+bX+cX*X
并分别以二次模型的观测值、值信度为95%的置信区间的上限及下限为纵坐标,X为横坐标,在同一坐标系中作散点图。
由输出结果知,第一个线性模型在0.05水平下是显著的,预测模型为: Y=1.001407-0.000075X
而二次模型在0.0001水平下是显著的,预测模型为: Y=1.004940-0.000428X+0.000006424X*X
复相关系数接近1,预测值与实测值更接近,回归效果更好,因此Y与X的关系应选用二次模型。
10.3.2 能够转化为一元线性回归的一元非线性回归
例10.3 根据1990年陕西省杨凌区小麦条锈病发展过程资料(表10.2),现需要分别用直线回归方程、Monomolecular,Gompertz和Logistic等方程拟合小麦条锈病的发展过程,选择出较好的方程。
表10.2 1990年陕西省杨凌区小麦条锈病发展变化数据
时间(月/日) 时序 病叶率
4/1 1
0.00043
4/6 5
0.0049
4/13 12 0.0087
4/18 17 0.016
4/25 24 0.051
5/1 30 0.117
5/7 36 0.217
5/13 42 0.415
5/21 50 0.765
5/27 56 0.80
? 程序及说明
/*数据来源:肖悦岩等,植物病害流行与预测,P103*/ DATA new;
INPUT x y@@; /*x代表时序,y代表病叶率*/
l=LOG(y/(1-y)); /* REG过程只能进行线性回归,所以这里进行了线性转换*/ m=LOG(1/(1-y)); g=LOG(1/LOG(1/y)); CARDS;
1 0.00043 5 0.0049 12 0.0087 17 0.016 24 0.051 30 0.117 36 0.217 42 0.415 50 0.765 56 0.80 PROC REG;
MODEL y l m g=x; RUN;
? 输出结果及说明
Model: MODEL1
Dependent Variable: Y Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Prob>F Model 1 0.72626 0.72626 36.019 0.0003 Error 8 0.16131 0.02016 C Total 9 0.88757
Root MSE 0.14200 R-square 0.8183
10-7
Dep Mean 0.23950 Adj R-sq 0.7955 C.V. 59.28848
Parameter Estimates
Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > |T| INTERCEP 1 -0.173188 0.08212674 -2.109 0.0680 X 1 0.015117 0.00251882 6.002 0.0003 Dependent Variable: L Analysis of Variance Sum of Mean
Source DF Squares Square F Value Prob>F Model 1 76.10235 76.10235 288.188 0.0001 Error 8 2.11258 0.26407 C Total 9 78.21493
Root MSE 0.51388 R-square 0.9730 Dep Mean -2.59244 Adj R-sq 0.9696 C.V. -19.82226
Parameter Estimates
Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > |T| INTERCEP 1 -6.816960 0.29721064 -22.936 0.0001 X 1 0.154745 0.00911543 16.976 0.0001 Dependent Variable: M
Analysis of Variance Sum of Mean
Source DF Squares Square F Value Prob>F Model 1 2.48210 2.48210 21.242 0.0017 Error 8 0.93477 0.11685 C Total 9 3.41687
Root MSE 0.34183 R-square 0.7264 Dep Mean 0.40454 Adj R-sq 0.6922 C.V. 84.49873
Parameter Estimates
Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > |T| INTERCEP 1 -0.358400 0.19770179 -1.813 0.1074 X 1 0.027946 0.00606350 4.609 0.0017 Dependent Variable: G
Analysis of Variance Sum of Mean
Source DF Squares Square F Value Prob>F Model 1 12.87189 12.87189 117.844 0.0001 Error 8 0.87382 0.10923 C Total 9 13.74571
Root MSE 0.33050 R-square 0.9364
10-8
Dep Mean -0.60279 Adj R-sq 0.9285 C.V. -54.82820
Parameter Estimates
Parameter Standard T for H0: Variable DF Estimate Error Parameter=0 Prob > |T| INTERCEP 1 -2.340187 0.19114820 -12.243 0.0001 X 1 0.063641 0.00586250 10.856 0.0001
REG过程输出结果分别给出了直线回归方程、Monomolecular,Gompertz和Logistic四个模型线性化方程的斜率和截距,四个线性化方程分别为:
直线回归方程:y=-.1732+0.01512x R2=0.818260
Monomolecular 线性化方程:m=-.3584+0.02795x R2=0.7264 Gompertz 线性化方程:g=-2.3402+0.06364x R2=0.9364 Logistic 线性化方程:l=-6.8170+0.1547x R2=0.9730
所以,能较好地拟合陕西省杨凌区小麦条锈病发展过程的方程为Logistic模型。 有些非线性方程,如y=(a+bx)/x、y=1/(a+bx)、y=aebx等,可以通过对x进行转换,然后采用一元线性回归拟合回归方程。其转换方法与本例中对y的转换相似,均要在数据步中进行。
§10.4 一元非线性回归
在生物学研究中,许多情况下变量之间呈各种各样的非线性关系,例如生物的生长量与生长时间之间就不是简单的线性关系,通常可用Logistic方程描述。这种呈非线性关系的数据,有的通过一定的代数变换,即可化为线性关系进行描述,建立回归模型可以利用SAS/STAT的REG过程及GLM过程求解,但有的不能够转化为线性关系,对于这种资料的回归模型建立,REG过程无能为力。一般情况下,我们都可以利用SAS/STAT的NLIN过程(非线性回归过程)对非线性模型的参数进行非线性最小二乘估计或非线性加权最小二乘估计,从而建立数学模型。
10.4.1 NLIN过程格式
PROC NLIN 选择项;
PARAMETERS 参数=初始值??; MODEL 依变量=模型表达式;
BOUNDS 参数限制条件表达式??; DER.参数[.参数]=偏导表达式; ID 变量表;
OUTPUT OUT=输出数据集 关键词=名称; BY 变量表;
10-9
10.4.2 NLIN过程语句说明
其中PROC NLIN语句、MODEL语句和PARAMETERS语句是必需语句。 ? PROC NLIN语句
PROC NLIN语句常用的选择项可分为以下四类:
(1)指定输入输出数据集
DATA=数据集 指定待分析的输入数据集,缺省为最新建立的数据集。 OUTEST=数据集 建立输出数据集,存储每一次迭代的参数估计值。 (2)指定迭代方法
METHOD=迭代方法 指定循环迭代的方法。可以选用:①GAUSS高斯-牛顿法;②MARQUARDT麦夸特法;③NEWTON牛顿法;④GRADIENT梯度法;⑤DUD试位法,正割法。缺省该选择项时,如有DER语句则隐含使用GAUSS法,如没有DER语句则隐含使用DUD法。
NOHALVE 指定抑制迭代过程中的步长寻优。
SMETHOD=步长 指定步长寻优的方法。可以选用:①HALVE步长减半法;②GOLDEN黄金分割法;③ARMGOLD Goldstein-Armijo法④CUBIC三次曲线插值法。缺省该选择项且未指定NOHALVE时,隐含使用HALVE法。
(3) 指定控制迭代结束的标准
CONVERGEOBJ=c 将残差平方和的变化值作为收敛标准,缺省为1E-8。 CONVERGEPARM=c 将参数估计值中的最大变化值作为收敛标准,缺省为1E-8。
MAXITER=i 限定迭代次数为n,缺省为50(防止迭代发散或振荡)。
(4) 控制打印输出
EFORMAT 将所有数值以科学记数法打印。
BEST=n 打印输出最优的n个初始值组合及其残差平方和(如果某参数初始值设置为多个值时,可以选择此项)。 ? PARAMETERS语句
该语句用于指定将被估计的参数及其可能的初始值。PARAMETERS可以简写为PARMS。
参数初始值的设定有时会对计算结果产生较大影响,当迭代不能收敛时,可以尝试使用不同的初始值重新计算。初始值可以设置为单个值,也可以设置多个值,通过非线性最小二乘网格寻优从中选出使残差平方和最小的一组数作为参数的初始值。例如,假定模型中有5个参数,可用如下语句设置它们的可能初始值: PARMS B0=5
B1=5,10,15 B2=5 TO 8
B3=5 TO 20 BY 5
10-10