袁方社会学研究方法教程(8)

2019-03-16 22:21

[键入文字]

在?1,?2未知时用S1,S2代替。在两个总体成数未知时，用对应的样本成数代替。

（E）r相关系数的区间估计，在置信水平1-?的要求下，总体r相关系数的置信区间可由如下方法求出：首先将样本相关系数带入公式：Z=1.151log

'22221?r1?r中求出Z值，则总体Z值得置信区间为?Z''??'?Z?/211?,Z'?Z?/2?，由上式

n?3n?3?Z'=1.151log

1?r，将两值对应的两个r值求出，这两个r值即为相关系数的置信区间端点值。 1?r（3）假设检验：<1>定义：如果经验资料是由抽样调查获得的，由资料计算出的结果还不能马上验证原有理论假设是否为真，而要首先对这一结果的显著性进行检验，即检验这结果是否对总体具有显著的代表性，这种与抽样调查结合在一起的显著性检验称为统计假设检验，简称假设检验。 <2>当样本资料与原假设不符，有两种可能：（A）原假设错误。（B）样本缺乏代表性。因此，如果不对样本的代表性进行检验，剔除因样本代表性所产生的结果与假设不符的情况，而否证原理论假设，就有可能抛弃正确理论假设的错误的危险。同理，在样本结果与原假设相符的情况下，有可能犯以假当真的错误 <3>假设检验的一般概念：（A）原假设与备择假设。原假设又称虚无假设（人大03名），一般用H0表示，它常常是根据已有的资料或根据周密考虑后确定的。但直接用于假设检验的不是原假设，而是所谓的备择假设，又称研究假设，备择假设就是与原假设相反的假设，用H1表示，它是当原假设被推翻时需要接受的假设。假设检验依据的是小概率原理，就是说小概率事件被认为是在一次观察中不可能出现的事件，因此，如果再一次观察中出现了小概率事件就应当否定此事件是小概率的说法。假设检验的逻辑就是求出H0是正确的可能性，如果能证明这种可能性极小，就应否定H0，接受H1。（B）显著性水平与否定域（接受域）：显著性水平（人大99，08<名>：显著度；南大99<名>）：是指假设成立的标准，即小概率的值，用?表示。显著性水平意味着总体参数值与样本统计值具有同等特性的概率为1??，抽样误差不超过?。在进行研究时，通常是先决定显著性水平的大小，若样本统计值达到这一水平，则可确认样本具有较好的代表性，原假设可以成立。拒绝域（人大00，04名）：就是在显著性水平下，拒绝原假设H0的区间，它位于抽样分布的一端或两端的小区域内，根据小概率原理，当由样本算出的统计值落入此区域内时，则原假设被否定。反之接受域就是接受H0的区间，它位于抽样分布的中间区域内，若由样本算出的统计值落入此区域内，则接受H0。（C）双边检验（人大09简答）与单边检验（人大05名，02简答简述假设检验中双边检验与单边检验的区别）：拒绝域位于抽样分布两端的检验即双边检验。当拒绝域只集中在抽样分布的右端，则叫作右侧单边检验，如果是在左边就叫做左侧单边检验。一般来说，双边检验较单边检验更难否定H0，因此在提出备择假设时，最好说明方向。<4>假设检验的步骤：（人大08论述论述假设检验的基本思想、步骤及在统计分析中的具体应用）（A）建立原假设H0与备择假设H1。（B）根据总体的分布形态和变量的测量层次以及样本的规模等，选择能反映H0的统计量和确立H0成立条件下的这一统计量的分布。（C）根据问题的需要，规定适当的显著性水平?，并据此确立拒绝域或接受域。（D）根据样本统计量的观测值进行判断，若其落入拒绝域，则拒绝原假设，接受备择假设，反之接受原假设。<5>弃真与纳伪（人大00简答简述假设检验中的两类错误，09简答）：在进行判断时，无论是作出拒绝或接受假设的判断，都不会百分之百的正确，都会有一定错误。（A）判断的第一类错误是弃真的错误：即原假设反映了客观世界的真实情况，但却在检验中被作为错误的看法而加以拒绝。犯弃真错误的概率为?。（B）

第 36 页共 49 页

[键入文字]

假设检验的第二类错误是纳伪的错误：即原假设不是真的却被作为真的加以接受。显然当拒绝H0时，犯弃真错误的可能性?是很小的，而在接受H0拒绝H1时，犯纳伪的错误的可能性却很大。由此可知，H0和H1在假设检验中的作用是不等的。H0一般选择的是常规的已存的现象，没有充分的根据是无法否定的，而要把研究的看法或猜想作为备择假设H1，因为一旦备择假设被接受，那么它被否定的概率是很小的。由于社会研究一般是证实假设，即希望否定原假设，因此特别注意弃真的错误。弃真与纳伪这两种错误是相互对立的，即在一定条件下，弃真的错误增大时，纳伪的错误就会减少，反之也一样，完全消除两者的矛盾是不可能的，为了同时减少犯这两种错误的概率，一般采取增大样本容量的方法。

<6>假设检验的类型：（A）参数检验（人大06名）：要求总体必须具备某些条件。如分布，变量层次等。参数检验的优点：当总体充分满足所需求的前提条件时，在做假设检验时可以非常准确，但在社会研究中往往很难判断总体是否合乎要求。（B）非参数检验（人大00名）：不要求总体具备特殊条件，且适用于各种层次的变量，它不是检验总体的某些参数，如平均数、方差等，而是检验总体某些有关的性质。非参数检验的优点：适用范围广、计算简单，当样本容量增大时，其推论准确度可以增加。近年来，非参数检验获得了越来越广泛的应用。

（C）选用何种检验方法要考虑：（a）样本的个数与类型。如单一样本还是配对样本。（b）样本的规模。一般大于100个元素的样本为大样本，小于或等于100的样本为小样本（c）变量的测量尺度。

<7>参数检验（人大06名）：是对于总体参数的检验，当总体的分布形式已知，而且中的某些参数，如平均数、方差等为未知时，可以先对这些参数作出假设，然后从总体中抽出一个随机样本，根据对样本的观察资料对假设的真伪作出判断。常用的三种参数检验方法：（人大03简答简述假设检验中Z检验与t检验的区别与联系）（A）Z检验：要求：（a）样本必须是随机抽取的。（b）变量必须是定距层次的变量。（c）总体应呈正态分布，不过当样本容量相当大时（n>100），这一要求可以放松。可以用于以下参

数的检验：（a）大样本的总体均值检验：这时用于检验原假设的统计量（又称检验值）是

Z?x??0Sn?。

（b）大样本的总体成数检验：这时用于检验原假设的统计量是Z?P?P0P0(1?P0)n?，其中P为样本成数值，P0为假设的总体

?成数值。（c）大样本的总体均值差检验：当甲总体的样本规模n1与乙总体的样本规模n2均大于100时，其平均数的差异可由Z

检验值来检验，Z?x1?x2SS?n1n2择

2122??，x1，S1分别为样本n1的平均数和方差，x2，S2分别为n2的平均数和方差。原假设H0为：

???1??2，备假设

H1为：

?1??2（或

?1??2，或

?1??2）。

（d）大样本的总体成数差检验：在甲总体的样本容量n1与乙总体的样本容量n2均大于100时，其成数差异可以由Z进行检验，

Z?P1?P2PP(1?P2)1(1?P1)?2n1n2??，P1,P2分别为样本n1与样本n2的成数。相应的原假设H0为：P1???P2，备择假设H1为：P1。（e）G相关系数、dyx系数的检验：G系数描述的是两个定序变量的相关程度与方向，?P2（或P1?P2，或P1?P2）

若样本中G不等于零，我们就要检验在总体中G是否也不为零，即变量间的关系是真的。因此，原假设为：G=0，备择假设为

第 37 页共 49 页

[键入文字]

G?0，检验统计量Z?Gns?ndn(1?G2)，ns为同序对，nd为异序对，n为样本大小，G是样本的Gamma值。由于dyx系

数与G系数的计算公式中都是以同序对ns及异序对nd的差ns况。

?nd作为分子的,故均可通过ns?nd=S的检验来推断总体的情

（B）t检验：要求：（a）被检验总体成正态分布。（b）样本必须是随机抽取的。（c）变量应为定距尺度的变量。一般说来，t检验多用于小样本。可以用于t检验的参数有：（a）小样本的总体均值检验：原假设为：?备择假设为：???0（或???0，??0，

或?，检验统计量t???0）

x?u0Sn?。（b）小样本的总体均

值差检验：统计量为：

t?x1?x2nS?n2Sn1?n2?221122??，而原假设为：

n1?n2n1n2?

?1??2。

（c）配对样本的比较：原假设为：?1??2。统计量为：t?

，其中m为配对数目，d?x1?x2；xd为d的平均Sdm?1数，Sd为d的标准差。

（C）F检验：要求：（a）样本随机抽取。（b）有一个变量是定距变量。（c）要求各自总体均为正态分布并具有相等的方差。

E2(n?k)，E是样本的相关比率系数，n为样本的规模，k是分组数。 F检验一般用F?2(1?E)(k?1)于：（a）方差分析的检验：这时原假设一般形式为：?1别平均数不同。检验的统计量为：F??2?。备择假设为：有一个以上的类?k（即各类间平均数相等）

?BSS/k?1，BSS

BSS/n?k为组间平方和，RSS为组内平方和。（b）对两个总体或多个总体

的差异作检验：当样本超过2个时，一般采用F检验，这时原假设形式为：M1?M2?M3?。

（c）r相关系数与回归系数的检验：计算相同系数r与回归系数b的公式具有相同的分子，因此对r的检验亦即对b的检验。此时，原假设与备择假设的形式一般为：

H0：总体中r=0，b=0；

H1：总体中

r?0,b?0，检验统计量

r2(n?2)F?(df1?1,df2?n?2)，n为样本大小，r为样本相关系数。这个检验统计量是以变量x和y成线性关系为前提

1?r2的，两个变量若是非线性关系，这一方法就不适用了。判断两变量在总体中是否有线性关系的方法：一般可用F检验值进行检验，此时：

H0：x与y在总体中是线性关系，即r=E

E2?r2?n?k?H1：x与y在总体中是非线性关系，即r?E，检验统计量F???(df1?k?2,df2?n?k)，k为x变量

1?E2?k?2?第 38 页共 49 页

[键入文字]

值的类别数，E为样本相关比率系数，r为样本线性相关系数。

<8>非参数检验（人大00名；复旦97<简>：什么叫做非参数检验？其适用范围和优缺点）：（A）?检验（人大04名）是目前统计中应用最广泛的非参数检验法，要求：（a）两个变量均为定类变量。（b）样本必须随机抽取。（B）?检验一般用于：

（a）列联表的检验：列联表通过将两变量交互分类，旨在发现其间是否存在某种联系，因此在对列联表进行检验时，原假设应为：变量x与变量y无关；备择假设应为：变量x与变量y相关。检验统计量：?222???i?1j?1cr(fij?Eij)2Eij。公式中，Eij为期

望频次，可由边缘分布求得：Eij?fi*f*jf。在查

?2分布表求临界值时，需要用到自由度的概念，?2统计量的自由度为：

2df=（r-1）（c-1）。当算出的?值大于某一显著性水平下的临界值时，则原假设在这一显著性水平下被拒绝。在用?值对列联表进行检验时，每一格值的Eij要保持一定数目之上，若其中有的格值Eij太小则有可能引起判断失误。一般要求在r*c的表中

2Eij?5的格数不应超过20%，也有人认为所有格值不应小于10 。

（b）二分变量的相关测量，所谓二分变量就是取值只有两类的定类变量。对于2*2的列联表，可用?值来测定变量间的相关，

2较为常用的有：第一，?系数，???2n（n为样本大小），其值在0-1之间。?系数也可用于r*c列联表，但这时?值会超

过1，为克服这一缺点，设计出了V系数。第二：V系数，V??2n(m?1)??2m?1，其中n是样本的大小，m是表的行数

r与列数c中的较小数，即m=min(r.c)，V值由0-1。显然，在2*2表时，V=?。第三，C系数，C??2?2?n，其值最小为

零，表示两变量完全无关，但其上限是可变的，最大不超过0.707，即使两变量完全相关，亦无法达到1。（c）正态总体方差检验：这时原假设为：?2??20，检验统计量为?2?(n?1)s2?20，自由度df=n-1。

?2检验是检验两变量间在总体中关系的有无，而不是关系的强弱程度，因此显著的话能说明相关关系存在，但并不能说明这种

相关关系在实际中是否重要。?的统计显著性一方面受相关关系强弱的影响，另一方面也受到样本规模的影响，同样的相关强度，样本规模不同，就会具有不同的显著性水平，即使是一个很弱的相关，但只要样本足够大，也会具有统计显著性。因此，在大样本统计检验显著时，还需要进一步确定相关强度的高低，以确定这种相关有无实际意义。

第十六章：变量分析的逻辑和策略

119、

分析的逻辑是指进行分析时所遵循的逻辑方法和推理过程，分析的策略指的是分析程序的设计及分析的技巧等。掌

握变量分析的逻辑与策略不仅能使资料分析更深入、更全面而且还能澄清和防止某些逻辑错误，是理论解释更符合实际，或发现

第 39 页共 49 页

2[键入文字]

新的理论和问题。统计调查的变量分析最早是由法国社会学家杜尔克姆运用到社会研究中来的，以后经斯多弗、拉扎斯菲尔德、罗森伯格等人的发展与完善，已经形成了一套较系统的统计调查的资料分析模式----详析模式。 120、

变量关系的类别：（1）变量间的关系：统计相关或统计无关。两个从统计上看无关或弱相关的变量，实际上可能

的确无关，但也可能有关系，两变量间的这种统计上无关而实际上相关的情况，称为虚假无关。而两个从统计上看具有相关关系的变量，它们之间的真实关系有可能是：实际上无关、实际上相关、实际上具有因果关系。（2）统计相关的不同类型： <1>统计相关，实际无关。这种情况称为对称关系或虚假关系（人大05名），即从统计上看有关系的两个变量实际上相互独立、互不影响，并无有意义的联系。对称关系用符号表示为：X?Y。<2>统计相关，实际也相关。这种情况称为相互关系，所谓相互关系是指

统计上相关的两变量实质上也是有关系的，这种关系是一种交互影响的关系，在这种关系中，两个变量相互作用、相互加强。有时，我们虽然明知有因果关系存在，却难于指出何者为因、何者为果，谁影响了谁，实际上是互相影响，互为因果。相互关系在调查中极为常见，符号表示为：

X?Y

<3>实际的因果关系：这种情况是指统计上相关的两个变量之间实际上存在因果关系。因果关系是变量分析中所要探讨的最重要的课题。社会研究中所说的因果关系是指在两个变量中，一个变量的变化伴有另一变量的变化，即一个变量影响另一个变量，但是反过来不成立。在因果关系中，能够影响其他变量发生变化的变量称为自变量，依赖于其他变量，但其本身不能影响其他变量的称为因变量，后者通常是我们希望解释说明的变量。因果关系用符号表示为：

X?Y。

判断因果关系的原则：<1>时间的先后。<2>变量的不变性与可变性。时间的因素固然重要，但并不是决定关系方向的不变的标准。在社会研究中常将一些具有固定性、持久性的变量作为自变量，如性别、年龄、民族等。社会研究中还有一些主要的变量，它们之具有相对持久性，如社会地位、居住地以及社会阶层等就属于这种变量。这类变量比行为、态度等变量更为固定持久，因而往往被当作自变量。<3>需要指出的是，这里所讲的因果关系，也称为非对称关系（即后者的定义要更严格一些。 121、

详析模式（北大93<名>；北大2001<论>：试举例说明详析模式的分析方法；北大2002<论>：试论述详析模式的方

法和主要作用）：（1）两变量的交互分类：多数研究是从变量间关系的假设开始的。对两变量间关系进行描述的最基本的方法是交互分类法，又称列联表。（2）引入检验因素。（A）检验两个变量间关系的最重要、最系统的方法是引入第三个变量，然后检查引入第三个变量后自变量与因变量原有关系得变化情况，由此澄清与深化对原关系的认识，并解释两变量的真实关系。这种引入第三变量对两变量关系进行检验，以解释或确定这种关系的过程叫做分析的详析化（浙大2000、2001<名>；南大2000<名>），被引入的变量叫做检验因素或控制变量。（B）分表法：（a）首先描述变量X与Y的关系，这时的关系称为原关系。（b）依据理论或经验选择检验因素。（c）将检验因素分成不同层次或不同类别，然后在每一类别中做X与Y的分列联表，分表中X与Y的关系称为部分关系。（d）对各分表中X与Y的关系（部分关系）进行考察：（甲）若X与Y的原关系在各分表中消失了，证明原关系主要是由检验因素引起的；（乙）若X与Y的原关系在各分表中仍然存在（即各分表中X与Y的关系与原表相近），说明X与Y的关系不受检验因素的影响；（丙）若X与Y的原关系在各分表中存在但较原关系减弱，证明X与Y间的关系部分收到检验因素的影响。（3）详析模式的主要作用：<1>详析模式的一个主要作用是使调查研究可分享实验设计的一些优点。它是一种近似的实验设计。在详析模式中，控制的项目越多，则两个群体出了一个变量不同外，其他可能越接近相同。这样详析模式就使得调查近似于事后实验设计，从而成为社会科学中最有利的证明模式之一。<2>可以充分利用统计资料，并将研究引向深入，一方面能对变量关系作出描述；另一方面通过引入第三变量，他还可以澄清事实真相，包括两变量间关系的真伪、这一关系存在的条件和存在的原因等等，从而使变量间的关系更具体、更精确可靠。分析的目的在于解释，详析模式在解释上的贡献很大，不仅能证实解释，也能排除错误的解释，并能获得新的解释。因此它是建立理论和开发资料的有力工具。<3>在详析模式中，部分关系与原关系进行比较时，可出现三种情况：（A）关系相同。（B）关系减小或消失。（C）关系分列。即一些部分关系与原关系相似或加强，而另一些部分关系则有所减弱或完全消失。（A）（B）是一般关系分析的主题，（C）是条件关系分析的主题。 122、

变量关系的检验：（1）虚假关系的检验（北大97<论>：试比较详析模式中，条件关系分析与变量关系检验的异同。

北大2002<名>）：两变量间的虚假关系是指两变量表面是一个非对称关系，但实际上是一个对称关系，两变量间并无有意义的或内在联系，他们之所以有关系是因为此两变量恰巧与其他某一变量相关联。造成两变量虚假关系的这“某一变量”就叫做外在变量。它与自变量及因变量的关系用图来表示就是：

(自变量）X（因变量）YX?Y），它是指在特定条件下的两

变量关系中，一个变量影响另一个变量，反过来，后者对前者没有影响。这种非对称关系于自然科学所讲的因果关系有一定区别，

A。所以，若某一变量为外在变量，则将其控制之后，自变量与因变

第 40 页共 49 页

共8页:

袁方社会学研究方法教程(8).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档

袁方 社会学研究方法教程(8)

袁方社会学研究方法教程(8)