问卷分析方法概述

2019-03-27 19:32

第一章描述性分析

1.1 常用描述性统计量

描述性统计只对统计数据的结构和总体情况进行描述，并不能深入了解统计数据的内部规律。常用的描述性统计量如下：

(1)集中趋势指标（central tendency）：标准差（standard deviation），均数（means）众数（mode），中位数（ median），总和（sum），标准误（S. E. mean）等。其中标准差方差只适用正态分布。标准误则反映了样本均数的波动程度。

(2)百分位数指标（percentile）：包括四分位数，各个百分位数等，适用于任何分布类型资料。

(3)分布指标(distribution)：偏度系数（Skewness）和峰度系数(Kurtosis)，反映了数据偏离正态分布的程度

(4)其它：M统计量(M-estimators)、极端值(outlier)等，主要用于对存在异常值的数据进行描述。

1.2 Spass软件中的描述菜单内容

Spass的许多模块都可完成描述性统计分析，但专门为该目的而设计的几个模块则集中在descriptive statistics菜单中，他们就是计算各种统计量或绘制统计图来实现描述功能。descriptive statistics菜单主要内容：

(1)频数分布表分析(Frequencies)：其特色就是产生频数表，对分类数据和定量资料都适用。 (2)统计描述分析(Descriptive)进行一般性描述，适用于服从正态分布的定量资料。

(3) Explore 过程：用于对数据分布状况不清楚时的探索性分析，它会杂七杂八给出一大堆可能用到的统计指标和统计图，让研究者参考。

(4)Crosstabs 过程则完成计数资料和等级资料的统计描述和一般的统计检验我们常用的X2 检验也在其中完成

(5)Ratio过程；用于对两个连续性变量计算相对比指标，它可以计算出一系列非常专业的相对比描述指标。

第二章信度分析

在经典测量理论中，由真分数模型而得到对信度更为理性的定义：信度即为测验的实得分数与真分数的相差程度。信度值在（0～1）之间，称为信度系数，用rXX表示。根据测验分数的不同误差来源，可将信度分成若干种类，对每一种信度的计算方法也相应变化。信度分为：再测信度、复本信度、内部一致性信度、分半信度和评分者信度。信度系数越大，表明测量结果的可信程度越大。

2.1 重测信度(retest reliability)

有人也译为再测信度法，采用同一个问卷在同一人群中先后测量两次, 评价两次测量的相关性。重测信度适用于异质性调查。

2.1.1 重测信度法的优点

(1)它最符合重复调查的涵义，是重复调查最简单、明确的方式。(2)首次调查和再次调查只需要一套调查问卷，比编制两套等值调查要省力、省时。(3)同一套题目无论施测几次，所测量的属性是完全相同的。 2.1.2 重测信度法的缺点

(1)同一组被调查者对同一个问卷先后两次作答相互之间是不独立的。因为第一次的作答在记忆中的保持，以及第一次作答后对调查内容的了解和相互讨论等，影响第二次作答，使第二次调查得分有系统地增加。(2)如果两次调查的时间间隔较长，在此期间被调查者身心的发展、新知识的获得等因素都会使两次调查结果不相同。(3)同一个被调查者对同一个问卷先后作答两次，一般来说，在第一次作答时，调查对被调查者的吸引力较大，而第二次作答时，往往由于被调查者失去兴趣而造成两次调查结果不一致。(4)被调查者在两次调查时的主观状态，如身体健康、疲劳、调查焦虑、态度、情绪等不可能完全相同。(5)两次调查的环境，如温度、光线等条件的不同，也都是产生调查误差的因素。 2.1.3 重测信度法的适用范围

重测信度适用于异质性调查。所谓异质性调查就是一个调查包括几个不同的部分，这几个不同的部分分别测量各个不同的特质。他们之间可能不存在相关或相关很低。对于这种异质性调查不适宜计算其同质信度。这时，重测信度比较可靠，计算出的信度值也比较高。另外，重测信度适用于速度问卷调查而不适用于难度问卷调查。因为速度问卷调查的测题比较多，而且有一定的时间限制，被调查者很难记住第一次调查的内容，因此第二次调查很少受到记忆的影响，而难度调查则相反。

对问卷再测信度的评价分析时, 当评估的变量是分类变量时, 可用Kappa 系数来评估再测信度，当两个诊断完全一致时，Kappa值为1。当观测一致率时，Kappa值为正数，且Kappa值越大，说明一致性越好。当观测一致率小于期望一致率时，Kappa值为负数，这种情况一般来说比较少见。根据边缘概率的计算，Kappa值的范围应在-1～1之间;Kappa>=0.75时，两者一致性较好；0.4<=Kappa<0.75时，两者一致性一般；Kappa<0.4时，两者一致性差;当评估的变量是连续变量或等级变量, 则用基于方差分析的内部相关系

ICC( Intraclass correlation coefficient) 来评价问卷的再测信度。一般来说, ICC 大于0.75 表示极好, ICC 在0.6～0.75 表示较好。

[1]

2.2 复本信度((alternate-form reliability)

复本信度又称为等值性信度( equivalence reliability) 。相关系数常用于复本信度估价或重测信度估价，要求在不同的时间对同一群体实施两次或多次平行调查，以平行调查的相关系数的大小判断经过一段时间后测量结果的稳定程度。相关系数越大，表明复本信度越高，测量结果一致性越可靠。若问卷调查的数据为定距数据时用皮尔逊积差相关，若问卷调查的数据为等级数据时用斯皮尔曼等级相关。 2.2.1 复本信度法的优点

(1)一个问卷调查有两个或几个复本，这意味着对于测量同一种特质，具有两个或几个行为样本。由于问卷数目的增加，对于所要测量属性相联系的行为总体代表性增强。因此，一个检测的两个复本在两三天至一周对同一组被试施测时，获得的复本信度系数是相当准确的。(2)检测的两个复本，如果在不同的时间使用，其信度既可以反映在不同时间的稳定性，又可以反映对于不同测题的一致性。它反映了两个层面的信度。(3)两个复本在同时连续使用时，可以避免重测信度的一些缺点，如首次调查对重测在记忆、练习效果的影响，间隔期间获得新知识的影响，再次施测的环境不同和被试主观状态不同的影响，以及为了应付调查所作训练的影响等。

2.2.2 复本信度法的缺点

(1)编制两个完全相同的调查问卷是很困难的。如果两个复本过分相似，则变成重测的形式；而过分不相似，又使等值的条件不存在，两个复本调查问卷有可能在某种程度上测量不同的性质，这就会低估问卷的信度。(2)被试连续接受性质相似的两个调查，可能减少完成调查的积极性。(3)虽然两个复本问卷的题目材料不同，但被试一旦掌握题的某一模式，就能触类旁通，有可能失去复本的意义。 2.2.3 复本信度法的适用范围

无论从问卷调查的理论上来说，还是从实验研究的观点来看，复本信度是考察问卷可靠性是比较好的方法。复本信度不仅适用于难度调查，也是估计速度调查信度比较好的方法。在作追踪研究或探讨某些影响调查成绩的因素时，大多使用复本调查。

2.3 折半信度( split half reliability)

卢龙(Rulon)公式和弗拉南根(Flanagan)公式直接估计整个调查的分半信度。前者使用两个半调查分数之差的方差及整个调查的总方差。后者使用两个半调查分数的方差及整个调查的总方差。 2.3.1 采用折半信度测量信度的优点

折半信度只在一个时点上进行; 不受记忆效应的影响; 在重复测量法中容易出现的误差项之间的相关在折半信度中不易出现; 从实用的角度, 折半信度比较经济和简便。 2.3.2 折半信度存在着内在的不足

首先没有一种理论推导严格证明其有效性; 其次对于同一组问题, 可能会存在多种组合方式, 从而导致折半信度的计算带有一定的随机性。

2.4内部一致性可信度( Internal Consistency Reliability，也称同质信度)

2.4.1 内部一致性可信度的检测指标及取值

内部一致性可信度通常采用Cronbach’α系数，库德-理查逊(K-R20)信度法。Cronbach’α系数法，α系数表示问卷调查结果总变异中由不同被试者导致的比例占多少. Cronbach’ α系数值介于0与1之间, α值越大表示问卷项目间相关性越好, 内部一致性可信度越高。一般而言, α大于0. 8 表示内部一致性极好, α在0.6～0.8 表示较好, 而低于0.6 表示内部一致性较差。在实际

[2]

应用上, Cronbach’α值至少要大于0. 5,最好能大于0. 7。最早提出该系数的学者认为:Cronbach'α 须大于等于0.7才能认为信度较好，随着 Cronbach'α系数被广泛地接受和使用，有学者陆续提出该系数在0.6以

[3][4]

上即表示该问卷达到可信的标准，也有学者对 Cronbach'α系数进行更系统的规范，认为该系数低于 0.6 则不被接受，介于0.6和0.65表示不被期待但可以容忍，介于 0.65 和0.7之间可以被接受，介于 0.7 和 0.8 之间被尊重，介于 0.8 和 0.9 之间非常好，但是如果大于 0.9 则表示条目太多，量表必须进行缩减。台湾学者吴统雄认为 Cronbach'α 系数若小于等于0.3 为不可信；大于0.3 而小于 0.4 如用做初步的研究则勉

[5]

强可信；大于0.4 而小于等于0.5为稍微可信；大于0.5而小于等于0.7为可信，且为最常见的信度范围。 2.4.2 Cronbach’α系数的局限性

Cronbach’α系数既是使用最为广泛的同质信度指标，也是受到批评最多的指标。如Cronbach’α系数容

[6] [7]

易受到测量工具和测试手段的影响；很多研究表明Cronbach’α系数通常比内部一致性信度系数要低。

[8]

由于Cronbach’α系数是建立在经典测量理论的 3 点基本假设上，即其一，真分数具有不变性；其二，

误差是完全随机的；其三，观测分数是真分数与误差分数的和。若不满足这些条件，就有可能出现低估情况。当α系数高的时候，真正的信度会比α系数还高；但是，当α系数低的时候，由于具体确定α系数低估信度的程度，所以就很难判断真实的信度了；系数无法具体估计每一个变量的信度，并且α系数本身也存在着误差。

2.4.3 解决Cronbach’α系数的局限性的方法

（1）而使用验证性因子分析，可以避免以上的问题。经典测量理论中，很注重条目之间的关系，而条目之间的关系也是结构方程模型中测量模型所重点考量的。而验证性因子分析可以分析出每一个变量的复相关系数的平方，也就是 R2 来作为每一个变量的信度指标，通过预先的模型设定某一个变量可以分别归于不同维度，这样可以解决α系数无法估计观测变量从属于两个维度的情况。而验证性因子分析可以在估计的时候，单独列出每个项目估计的测量误差，这样可以使其信度指标具有更高的精度。当 R 2用于单个变量的信度指标时，大于或等于 0.5，则反映这一条目具有一定的一致性。

（2）通过组合信度（Composite Reliability, CR）来计算潜变量的一致性程度。潜变量的 CR 值是其所有对应的观测变量信度的组合，表示构成这一潜变量的指标的内部一致性，信度愈高显示这些指标的一

[9]

致性愈高。对于反映潜变量信度的组合信度，一般学者建议值为 0.6 以上。

（3）可以通过平均变异抽取量(Average Variance Extracted; AVE)来考查观测变量的总方差中有多少是来自于潜变量，而其余部分则是由测量误差所导致。该变量也是越高越好，一般而言应该大于 0.5。

（4）θ系数法要求分析的条目数在5个以上,以得到较稳定的结果;因子分析中各条目的共性方差hi2等于该条目在各因子上的载荷值的平方和,所以,理论上Ω 系数综合了各条目对欲测概念的个别贡献,且对量表的性质无特殊要求。目前,有关此方法应用于信度评价的报道尚少。巫秀美曾以“中老年预防结肠癌社区干预试验的健康行为问卷”为例,比较了α系数、θ系数和Ω 系数,结果为α系数最小,Ω系数最大。这一结论是否有普遍意义还有待于进一步的研究。

[8]

2.5 评分者信度( scorer reliability)

评分者信度, 它分为评分者间信度和评分者内信度。两名调查者的评分者间信度和测量两次的评分者内信度可用Pearson相关系数或Kendall、Spearman 等级相关系数表示。如果调查者在三人以上或同一调查者测量三次以上, 且采用等级记分时可以采用Kendall和谐系数来确定评分者信度。一般要求成对的受过训练的评分者之间相关系数达到平均0. 90 以上,才认定评分是客观的。

第三章效度分析

一个测验可以有多种效度, 每种效度视使用者的具体目的而定, 因此, 一般不存在测验的统一效度。但各种效度又是相互联系和补充的。内容效度和结构效度既是校标效度的保证, 又须得到它的支持。考察内容效度和效标效度又有助于确定建构效度。要评价问卷中每一项测量的效度是非常困难的, 通常的做法是只评价若干重要测量的效度。

3.1 内容效度(content validity)

内容有效度是指衡量调查问卷的内容是否反映出切合研究主题的程度。考察内容有效度旨在系统地检查测量内容的适当性, 并根据对所研究概念的了解去鉴别测量内容是否反映了这一概念的基本内容。它主要包括抽样有效度和表面有效度。

3.1.1 内容效度的检验方法

内容效度的检验方法有专家判断、统计分析、再测分析、经验评定，其中专家判断法比较常用。

[1]

专家判断法的缺点，在于缺乏数量化的指标，可能带有一定的主观性。这是因为不同专家对同一门学科的内容范围和对调查者的调查目标可能有不同的理解，而且不同的专家对同一个测题的性能，也可能有不同的理解，所以对整个调查的内容做出的判断就有可能不同。 3.1.2 内容效度的局限性

内容效度具有一定的局限性，它的主要缺点有：

(1)缺乏理想的数量指标，因而妨碍了信息的交流和各问卷调查间的相互比较。

(2)内容效度本身也有局限，它只涉及调查和内容范围之间的关系，没有把被试在调查上是如何表现考虑在内。因此，内容效度只是调查的属性，对于千变万化的被试来说，它是一成不变的，而调查分数的解释，随不同的被试应该是不同的。内容效度关心的是调查内容和特定的行为领域的内容的关联程度，以及调查题目或内容的代表性问题。因此，内容效度与反应过程无关，也与调查的内外部结构、行为的差异及刺激的反应或社会效果无关。由此看来，内容效度提供的依据，只支持内容范围的相关性和调查内容的代表性，却不支持根据调查分数做出的推断。在内容效度的说明中，甚至没有提到调查者的反应和调查分数。因此，就其意义来说，所谓的内容效度根本算不上是效度。当然，也有些测量专家争辩说，一个调查测到的东西，是通过对试题内容的整体和选题过程的详细说明而得到操作性定义的。但是，我们将会看到，衡量问卷调查的效度时，还需要求助于其它形式的证据。

[1]

3.2 效标关联效度( criterion related validity, 又称准则效度)

在这里，被估计的行为是检验调查效度的标准，简称为效标。根据比较标准与测量结果之间是否在时间上有延迟, 又分为预测效度和同时效度。 3.2.1小标关联效度取值范围

预测效度系数通常较低, 多在0.2～0.6 之间,很少超过0.7,因而, Streiner 等人认为以0.4～0.8之间比较理想.

3.2.2 效标关联效度的局限性

（1）它并不直接表明调查和效标测量的是不是同一种能力。也许一个语言调查和一个数学调查有很高的相关，很显然，这两个调查的任何一个都不能成为另一个的效标。在寻找效标的时候，我们一定要考虑，效标所测的是不是我们要测的能力。

（2）在效标关联效度的证明中可能出现循环论证。证明效标关联效度的关键是以什么东西为效标。终极效标当然就是所谓的“标准行为”，但是我们往往找不到这个终极效标。最方便的效标是一个已经证明有效的调查，如果我编制的调查和一个已证明有效的调查之间有关联，则可以认为我的调查具有效标关联效度。例如，调查C以已证明有效的调查B为效标，调查B以已证明有效的调查A为效标，在A之前，如果

[1]

没有已证明有效的调查，A则有可能以调查C为自己的效标，循环论证由此而生。

3.3 结构效度( construct validity)

要确定一个问卷的结构效度,则该问卷不仅应与测量相同特质或构想等理论上有关的变量有高的相关,

共2页:

问卷分析方法概述.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档