综合变量法在多目标分层抽样中的应用

2019-04-22 09:02

综合变量法在多指标分层抽样中的应用

摘 要

本文采用综合变量法对多目标总体进行分层抽样,并设计了T变量作为估计量,比较了综合变量法和简单随机抽样的优劣性。而后通过案例证明了上述结论。

关键词:多指标抽样 分层抽样 主成分分析 综合变量法 引言

抽样调查作为认识社会现象的工具已经得到了广泛应用,其在政治、经济、文化、军事、人口等领域已经成为了广泛使用的有效方法。并且绝大部分的抽样调查都是希望能在一次调查中得到多个结论,因此多目标抽样是普遍使用的方法,关于这方面的研究已经有了很多成果,但依然不能满足现实的需要,所以对多目标抽样进行研究是很有现实意义的。本文将在已有理论的基础上,试图对多目标的分层抽样问题进行研究,采用主成分方法处理辅助信息,而后用综合变量法分层,研究该方法的性质。

一、模型介绍

将X进行主成分变换后,计算求得综合变量F*,即F*??1F1??2F2????KFK 其中?1,?2,?,?K为主成分F1,F2,?,FK的贡献率。以F*作为分层标志,进行综合变量法分层抽样。

这种变换将原来的多指标转换为了单指标,而后就可以用单指标的方法进行分层抽样。层数的确定可以按照如下准则:

?*L?1)?V(F?*L)V(Fstst??*LV(F)stL?1h?1L?WS2h2F*h2??Wh2SF*hh?12h2SF*h?Wh?11??

至于分层的界限Fh*,只要满足下面关系:

2(Fh*??h)2?SF*hSF*h?2(Fh*??h?1)2?SF*(h?1)SF*(h?1)

就可以使V(fst*)达到最小。现实中仍然采用戴伦纽斯和霍奇斯(Dalenius and Hodges)提出的快速近似法计算。

抽样方法

若总的样本量n固定,如何把这n个样本进行分配到各层,在各层的分配取决于层的规模、层内的方差和抽样的费用。这里只讨论最优分配,至于比例分配和内曼分配是最优分配的特例。最优分配为

NhSxhchnh?L(h?1,2,?,L) n?NhSxhchh?1确定了在各层的样本量后,在各层的抽样方式这里采用简单随机抽样。

分层抽样中,样本量n的确定不仅取决于精度要求和费用的限制,而且取决于如何分层和样本在各层的分配方式。这里精度要求的上限设定为V,第h层的每单元抽样费用为

ch,采用最优分配方式下,样本量n计算公式如下:

n??(WShh?1LFhch)??(WhSFh1NLch)V??WShh?1h?1L

2Fh二、多目标分层抽样估计量设计

目标变量Y的均值估计量为yst,其简单估计量为

yst??whyh

h?1Lyst是Y的无偏估计量,即E(yst)?Y 该估计量的方差为

2V(yst)??whV(yh)

h?1L由于多个研究变量的量纲并不完全相同,并且Y的均值估计量的方差不止一个,所以不同方法求得的均值估计量的方差协方差矩阵无法进行比较,也就无法对各种抽样设计方法进行评价和进一步研究。因此这里提出了一种解决上述问题的方法,为消除量纲影响,将均值估计量的方差比上均值估计量的平方,至于多目标变量无法比较的问题,可以将消除了量纲的方差加总求和,由此定义一个新的变量。

定义:在多目标抽样中,目标变量Yi(i?1,2,?,K)之间量纲不同,其样本均值的方差

V(yi)无法直接比较,V(yi)yi为yi的变异系数,将其平方求和得到T

T??V(yi) 2yii?1KT值是消除了量纲影响的方差之和,它将作为多目标抽样的精度指标。

显然,T值的大小就可以说明抽样设计效果的好坏,T值越小,表明抽样精度越高,反之,抽样精度越低。在分层抽样中,T的表达式为:

T??V(yist) 2yi?1istK根据前面的假设条件和有关主成分分析的性质,基于主成分综合的方法,求得的T有如下性质:

KT??V(yist)K?i?1y2?V(xist)KV(fist) isti?1x2??isti?1f2ist证明:

T??KV(yist)i?1y2也可以用矩阵的迹的形式来表示,即为 istT?tr[(yT?1styst)V(yst)]

?y?ax??

?yst?axst??

yyTa2xTstst?stxst?ax2st??

V(yst)?a2V(xst)?V(?) 当?和V(?)极小,可以忽略时

(yTTstyst)V(yst)?(xstxst)V(xst)

已知X?UTF

有xst?UTfst V(xst)?UTV(fst)U

?(xxT?1T1stst)V(xst)?UT(fstfst)?V(fst)U tr[(xT?1stxst)V(xT?1st)]?tr[UT(fstfst)V(fst)U]

K所以T??V(yist)K?V(xist)KV(fist) i?1y2?i?12??i?12 istxistfistK为了方便,下面对T??V(fist)进行讨论 i?1f2ist 证毕

综合变量法

根据上面的介绍,综合变量法是将综合变量F*排序后,进行分层抽样,分层的结果是保证了V(fst*)最小。即

*V(f)???i2V(fist) (3.3)

*sti?1P是最小的。在满足什么条件时,可以采用综合变量法抽样,而使T值达到最小。可以看出当fist与?i成反比例关系时,采用综合变量法抽样会更优。 证明:对3.2式进行整理,有

T????i?1KV(fist)2fisti?1K1f?2ist2i (3.4)

*?i2V(fist)对比3.3式与3.4式,3.4式是在3.3式的基础上加了权重。 ①当fist与?i成反比例关系,即

fist?A?i

时,T值就是综合变量F*的方差的倍数,可以表示为T?A?2V(fst*),显见,fist与?i成反比例关系时,采用综合变量法抽样最优。 ②当fist与?i不成反比例关系时,即

fist?Ai?i

K*),若采用综合变量法进行分层,使得Ai(i?1,2,?,K)不全相等,此时T??Ai?2?i2V(fisti?1V(fst*)达到最小,不能保证T值是最小的。

综上,采用综合变量法抽样的条件是fist与?i成反比例关系 证毕

其中 c???0,所以V(fst)?V(f),从而证明了多指标情况下无论是超空间区域法还是综合变量法分层抽样的方差都是小于等于简单随机抽样的方差。

三、与简单分层抽样比较

这里定义简单分层抽样为:在多指标抽样中,只用一个指标作为抽样标志的分层抽样

方法。这里我们假定使用F1作为分层标志,将样本分为L1个层,其他指标的证明同理。下面将分别将此方法与超空间区域法和综合变量法分层抽样进行比较,比较他们在何种条件下,他们的T值更小。

上一节已经说明,用F1进行分层得到的F均值估计量的分层抽样方差为V?(fst)。其设计效应为

deff?V?(fst)?V(f)?1

简称为d?。用综合变量法进行分层,即用F*作为分层标志,将样本分为L1层。这种方法的设计效应为

deff?V0(fst)?V(f)?1

简称为d0。现在分别采用简单分层抽样和综合变量法抽样,之后得到的T值分别用T?和

T0表示,即

V?(fist)KV(fi)T?????di?2 2fistfisti?1i?1KV0(fist)K0V(fi) T????di22fistfisti?1i?10K已知采用这两种抽样方法计算的估计量fist都是Fi的无偏估计量,即E(fist)?Fi,因此,假设上式的fist相等,而后就可以比较T?和T0的大小。T?和T0作差有

KT??T??(di??di0)0i?1V(fi) 2fist?,1,1,?,1),所以上式分解为: 可以看出差值的大小主要取决于di?与di0的大小,而di??(d1V(fi)V(f1)KT??T?(d1??d)??(di??di0)f1stfisti?2001?(d1??d10)V(fi)V(f1)??(1?di0)f1stfisti?2K

??d10?0而1?di0?0,所以T??T0的大小并不是固定的,这要取决于每一主成其中,d1分变量的设计效应,以及设计效应对应的权重(方差与均值之比)。根据经验,在综合变量法中,欲使F*的分层抽样方差最小,被赋予较大权重的Fi应该得到较小的设计效应。所以,d1??d10与di??di0的大小应该差不多,这样就会有

K?(d??dii?20i??d10 )??d1由此判断,T??T0?0会是更为常见的状态。通常情况下,综合变量法还是优于简单分层


综合变量法在多目标分层抽样中的应用.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:第一章 光的干涉 习题

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: