河南xxxxxx本科毕业论文 第二章 概率统计常用理论知识
?)为g(?)的极大似然估计。 若?为?的极大似然估计,g(x)为单调函数,则g(??2.2.3 置信区间和置信度
设总体X含有一个待估的未知参数?。如果我们从样本x1,x,2,?,xn出发,找出两个统计量?1??1(x1,x,2,?,xn)与?2??2(x1,x,2,?,xn)(?1??2),使得区间
[?1,?2]以1??(0???1)的概率包含这个待估参数?,即:
P{?1????2}?1??,
那么称区间[?1,?2]为?的置信区间,1??为该区间的置信度或置信水平。
2.2.4 线性回归模型
当变量间存在相关关系时,我们特别关心因变量y的取值的平均,即在给定
x1,x2?,xn的条件下,随机变量y的数学期望,记作??x1,x2?xk??E?yx1,x2?xk?.
此时,因变量y与自变量x1,x2?,xn之间的相关关系可以表示为: y?E?yx1,x2?xk???
这里?表示为随机误差,上式成为y关于x1,x2?,xn的回归。y对自变量
x1,x2?,xn取值的依赖关系为:??x1,x2?xk?,它反映了y取值的平均趋势,这是相
关关系的主要部分。
回归函数E?yx1,x2?xk?可以是线性的,也可以是非线性的。但是对于线性回归y??0??1x1????kxk??中回归函数是参数的线性回归。
而E?yx1,x2?xk?????0??1x1????kxk是最简单且最重要的情况,但是在理论上有比较深入的讨论结果,是非线性回归的基础。
y??0??1x1????kxk??称为理论线性回归模型。由随机误差?在线性模型中的地位可见,他的概率性质决定了模型的性质。根据回归函数的意义,自然有
E(?)?0。
关于变量x1,x2?,xn的n次观测,我们假定各次观测所受的随机影响程度相同。且任意两次观测的误差不相关。这种假定在一般情况下是合理的。称之为Gauss-Markov条件
2 Cov(?,?)??In
这里?如
?y1???1???1??1x11?x1k?????????y1x?x??2?2212k2???????,X?,??,?? Y? ?????????????????????1x?xy?n1kk???n??n???n? 7
河南xxxxxx本科毕业论文 第二章 概率统计常用理论知识
那样的随机误差向量且E(?)?0,为了不引进更多符号。以后?有时候表示一个随机变量,有时候表示为一个随机向量。由模型的意义,这样我们可以得到线性回归模型Y?X???,E(?)?0,Cov(?,?)?? ,?0称之为常数项。
?0,?1,?2??k称为回归函数,表示自变量x1,x2?,xn的改变时对y的影响大小。在
2某些问题当中,我们还假设?满足正态条件??N?0,?In? 其中?2?(0,?),也
是线性回归模型中的重要参数,In为n阶单位阵。
为了对未知参数进行估计或者研究其他有关的统计推断问题,需进行试验,设做了n次试验。第i次试验的观测值为(xi1???xik:y),称为第i个试验点。以后我们假定试验总数n不小于线性回归模型 Y?X???,E(?)?0,Cov(?,?)??包含的未知参数个数,且设计矩阵X是列满秩的,即:rk(X)?k?1。
2.2.5 一元线性回归分析
一元线性回归模型
设随机变量Y与普通变量x间存在相关关系,且假设对于x的每一个取值有
2 Y?N(?0??1x,?)
其中?0 ,?1 ,?2 都不是不依赖于x的未知参数。记??Y?(?0??1x),则对Y做这样的正态假设,相当于假设:
Y?(?0??1x)?? ,??N(0,?2) 其中未知参数?0 ,?1 ,?2都是不依赖于x的未知参数。
此时,Y?(?0??1x)??,??N(0,?2)称为一元线性回归模型,其中?1称为回归系数。
因变量Y由两部分组成,一部分是x的线性函数:?0??1x;另一部分是随机误差:?,是不可控制的。下面的任务是对参数?0 ,?1的估计,那参数?0,?1的最小二乘估计如下:
令x取n个不全相同的取值,用x,x,?,x表示,并作n次独立试验,得到
n12样本:
(x,Y),(x,Y),?,(x,Y) nn1122和样本观测值:
(x,y),(x,y),?,(x,y) nn1122把样本观测值(x,y),(x,y),?,(x,y)代入Y?(?0??1x)??,??N(0,?2)
nn1122得: yi??0??1xi??i , i?1,2?n。
8
河南xxxxxx本科毕业论文 第二章 概率统计常用理论知识
2而使此函数Q(?0,?1)?????(yi??0??1xi)达到最小为原则,则此时对未知参
2ii?1i?1nn数?0和?1的估计,就称为未知参数?0和?1的最小二乘估计,估计值记为?0和?1。通过以上的分析,这时候我们称此方程y??0??1x为Y关于x的经验回归方程,简称为回归方程。
接下来就是求未知参数?0 ,?1的最小二乘估计: 因为此方程Q(?0,?1)的极值点可以写成:
n?Q??2?(yi??0??1xi)?0 ?ai?1nn??n?0?(?xi)?1??yi?i?1i?1由此式子得方程组: ?n nn?(x)??(x2)??xy?i0??iii?i?1i?1?i?1?????现在对上面方程组进行求解,得唯一解如下:
nnn???n?xiyi?(?xi)(?yi)i?1i?1??1?i?1n?n?n?xi2?(?xi)2 ?i?1i?1?_?_??1nbn??0??yi??xi?y??1xni?1ni?1????(x?x)(yii?1n_ii?1n_i?y)2_?(x?x)
求出的解中的?0和?1为未知参数?0,?1的最小二乘估计量。
1?y?yi这表明,关于样本值,???1(x?x) 而此时回归方程也可写成y?y?ni?1(x1,y1),(x2,y2),?,(xn,yn)的回归直线通过散点图的几何中心(x,y)。为了计算上的
n方便,我们引入记号:
9
河南xxxxxx本科毕业论文 第二章 概率统计常用理论知识
1n2 Sxx??(xi?x)???(?xi)ni?1i?1i?1nn1n22 Syy??(yi?y)??yi?(?yi)2ni?1i?1i?1nnn1nSxy??(xi?x)(yi?y)??xiyi?(?xi)(?yi)ni?1i?1i?1i?1n2nxi2这样,?0 ,?1的估计值可写成:?1???Sxx, Sxy?1n1n ?0??yi??(?xi)?1。
ni?1ni?1 下面是对?2的估计:
2222 由于E??[Y?(?0??1xi)]??E(?)?D(?)?[E(?)]??,所以我们就把式子
记做: yi?y??x?xi??0??1xi,
??此时我们称y?y?i为xi处的残差;而平方和式: i Qn??(yi?yi)??(yi??0??1xi)
i?1i?1n_2n??2称为残差平方和。
下面我们计算Q:
e 我们首先将Q做如下分解:
e Qn??(yi?yi)??[yi?y??1(x?xi)]
i?1_i?1n_2n_?2 ??(yi?yi)?2?1?(xi?x)(yi?y)?(?1)i?1i?1n2?n__?2?(x?x)ii?1n_2
?Syy?2?1Sxy?(?1)2Sxx 再由?1????Sxx?得Q的另一个分解式:Qn?Syy??1Sxy。相应的统计量为: Sxye? Qn?SYY??1SxY 然后我们可以证明:
10
河南xxxxxx本科毕业论文 第二章 概率统计常用理论知识
于是:
Q??2??2(n?2)
E(即:
Q??2)?(n?2)
E(Q?这样就得到了?2的无偏估计量为:
)??2 n?2?Q?1 ???[Syy??1SxY]
n?2n?2?2 最后我们进行线性假设的显著性检验:
在以上的讨论中,我们假定Y关于x的回归函数?(x)具有线性形式:?0??1x。在处理实际问题时,?(x)是否为x的线性函数,首先要根据有关专业知识和实践来判断,其次就要根据实际观察得到的数据运用假设检验的方法来判断。这就是说,求得的线性回归方程是否具有实用价值,一般来说,需要经过假设检验才能确定。若线性假设符合实际,则?1不应为零,因为若?1?0则?(x)就不依赖于x了。
因此,我们需要检验假设:
H0:?1?0 H1:?1?0 用t检验法来进行检验,可以证明:?1?(?1,?S)
xxQQ2由?2??(n?2)和E(?2)?(n?2)得到:
?2?? (n?2)??Q???2(n?2)
22?2??由于?1与Q?相互独立,故有:
???1??1?即:
2(n?2)??2?2(n?2)?t(n?2)
Sxx 11