2011线性模型sas(3)

2019-08-03 13:31

plot/ridgeplot; run;

proc print data=rghald; run;

③主成分回归法

proc princomp data=hald; var x1-x4; run;

proc reg data=hald outest=pchald outvif; model y=x1-x4/pcomit=1,2 ; run;

proc print data=pchald; run;

回归诊断

proc reg data=hald graphics; model y=x1-x2/r ; plot student.*p.; run;

一般认为COOK D值的临界值为4/n=0.3077知，

所有D值均比此值小

第二章: 方差分析模型：

事实上，方差分析模型也是线性模型的之一，其特点为设计矩阵x里面的元素非0即1，且为列不满秩矩阵。因此需要加入限制条件才能可估（一般为对照）

1. 单因素方差分析：

1.1模型

设所考虑的因素为A，它有p个水平，对第i个水平得到一容量为ni的样本，记为yik（k?1,...,ni），设yik??i??ik，?ik~N(0,?)且独立，其中?i表示因素A的第i个水平下的理论均值。我们的目的是要知道这p个水平的差异，即要检验的假设是

2H0:?1??2????p。为了得到各水平的影响大小，将?i进行如下分解，?i??i??，

它称为因素第i个水平的效应，??1n?n?ii?1pi，n??ni?1pi则得到单因素方差分析的数学模

型：

??yik????i??ik,?1pni1?2?~N(0,?), 令为总平均，y?yy??ik??i?iknnii?1k?1?p???ni?i?0?i?1本均值。

注意：

?yk?1niik为第i个水平下的样

y?1n??yi?1j?1ni1nipniij???1n???i?1j?1ni1nipniij2 ?N(?,1n?)yi???yj?1ij????i???j?1ij21?N(???i,n?) i??y，所以可求得参数的估计（既可认为是矩法，也可认为是极大似然估计法）：?p1pni1????Eyij?(n???ni?i)?? ??i?yi??y，显然无偏性是成立的。如：E?ni?1j?1ni?1设

SST???(yik?y)2为总离差平方和

i?1k?1pnipniSSE???(yik?yi?)2为误差平方和，

i?1k?1E(SSE)??E?(yij?yi?)??(ni?1)?2?(n?p)?2

2i?1j?1i?1pnipSSA???(yi??y)??ni(yi??y)2为因素A的平方和（或称组间平方和）

2i?1k?1i?1pnipE(SSA)?E?ni(yi2??2yi?y?y2)

i?1p=

?nEyii?1pp2i??nEy??ni(2i?12p?2ni2?(???i))?n(2?2n??2)

?(?i?12?ni(???i))?(??n?)=(p?1)???ni?i2

22i?1则有如下单因素方差分析表表5.1 单因素方差分析表方差来源因素A 误差总和

平方和 SSA SSE SST

自由度 p?1 n?p n?1

均方

F值

MSA?SSAp?1 F?MSAMSE MSE?SSEn?p

概率p值

p?P{Fp?1,n?p?F}

若p??则否定H0，说明因素的水平间是有影响的。多重比较则进一步考察到底是哪些水平在真正起作用。

在原假设H0:?1??2????p被否定后，要考虑其对立假设成立的情况，

2表示至少有一对均值不等，到底是哪两个均值，需要Cp次两两比较，这种同时

进行多个均值间比较的检验，叫多重比较。（这里有一个总体显著性水平，和每一次进行均值比较的显著性水平）

1.2 同时置信区间（总体比较）：

事实上只要考虑对任一可估函数?ci?i（其中有?ci?0成立）作置信区间）

iici2Var(?ciyi?)???，任意m个对照?ci(k)?i，k?1,...,m的置信系数为

iii?1ni2p1??的Bonferroni同时置信区间为：

(k)2(c)i??cy?t()???，k?1,...,m ??i?n?p2mniii(k)i特别地，对m个形如?i??j对照的1??的Bonferroni同时置信区间为：

??(yi??yj?)?tn?p(2?m)??11? ninj1??的Scheffè同时置信区间为:

(ci(k))2??(p?1)Fp?1,n?p(?)?cyi??? ?niii(k)i2特别地，对Cp个形如?i??j对照的1??的Scheffè同时置信区间为：

??(p?1)Fp?1,n?p(?)((yi??yj?)??11?) ninjTukey同时置信区间（极差法）

1.3 方差分析的注意事项：

方差分析的模型的三个假设：

（1）正态性；

（2）方差齐性（每个观测值的方差相等）；

（3）诸分量相互独立性；一般来讲独立性只要合理安排试验，总可以保证。然后正态性和方差齐性则不然，因而需要进行相应的检验。

经验结果：

在方差分析中，方差齐性远比正态性要求更为重要（只要正态性偏离不太远），这是因为方差分析法对总体分布偏离正态分布有较好的稳健性。但当总体偏离正态总体较远时，需要使用非参数方差分析。

1.4 方差齐性检验：

方差齐性检验一般只是针对单向分类模型（即单因素方差分析模型），因为此时我们关注的主要目的是水平变化对指标的影响。对两向分类模型，不仅要了解比较各水平组合下指标理论值间的差异，更重要的是通过数据分析了解各个因素以及各因素之间的搭配对理论真值的影响。若此时只是比较a?b个水平组合间的理论真值，就可以把它变成ab个水平的单因素方差分析的均值比较问题。

?yik????i?eik对单向分类模型，若误差方差不相等，则模型可表为?，2?eik~N(0,?i)22，记第i个水平的误i?1,...,a;j?1,...,ni，要检验的假设为：H0:?12??2????ani2差平方和为SSei??(yij?yi?)2，在正态性假设下，SSei是服从?i2?n的变量，记i?1j?1MSei?SSei/(ni?1)。

Levene检验法（只用于平衡设计）

a(n?1)SSL??a?1SS2组间2组内???(??n(?i=1i=1j=1aanij-?i?)2近似?Fa?1,a(n?1)

i?-???)2n?12?i，i?1,...,a;j?1,...,ni n?ij?yij?yi?，令?ij?(e?ij)2，则有E(?ij)?其中e此时相当于单因素方差分析，只不过观测值变成了?ij

注1：只用于平衡数据，且对总体偏离正态总体有较好的稳健性。另外对数据的要求是n?3。注2：Levene检验法的改进，BF检验法（Brown&Forsythe）；Obrien法；

都对正态性有较好的稳健性，但在控制犯第一类错误的前提下，BF检验法比Levene检验法有更大的功效。

Hartley检验法（最大F比法）

maxi(MSei)mini(MSei)Fmax?近似于F分布，自由度分别由分子分母的自由度决定。

注：此法对正态性的偏离十分敏感。

正态性满足时，Hartley检验法的功效比Levene检验法高。

Bartlett检验法（卡方检验法）

记：fei?ni?1，fe?a?ni?a，定义：c?1?i?1a?i?1a11?feife3(a?1)，

q?felog(MSe)??feilog(MSei)，则统计量B?i?12.30262?q???a?1 c注：此法对正态性的偏离很敏感。但不需要平衡设计。

共9页:

2011线性模型sas(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档