K=3 N=6
信度系数与误差来源 信度系数类型 再测信度 复本信度(即时) 复本信度(延迟) 分半信度 同质性信度 评分者信度 一个假想测验的误差变异来源分析 信度类型 复本信度(间隔施测) 分半信度 上述二者差异 评分者信度 误差变异总和 真实变异 真实变异 误差变异 评分者间差异 时间上的稳定性,复本之间内容取样误的一致性,评分者之间的一时间取样误差 差 致性 62% 20% 10% 误差变异量 1-0.70=0.30 1-0.80=0.20 0.30-0.20=0.10 1-0.92=0.08 0.20+0.10+0.08=0.38 1-0.38=0.62 误差变异来源 时间与内容取样 内容取样 时间取样 评分者差异 误差方差 时间取样 内容取样 时间取样和内容取样 内容取样 内容取样和内容异质性 评分者之间差异 8% 三、影响信度的因素【思考题二的补充】 (一)有被试的样本特性 1、样本团体得分分布的影响(样本团体得分分布如果比较窄小,相关系数的信度就低。 ) 2、样本团体异质性的影响(样本团体异质大,信度就高;实际上,高信度可能是假性高信度,可能是由样本团体的异质造成的。) 3、 样本团体平均能力水平的影响。(团体的平均得分太高或太低,同样会使测验分数的分布比较窄小,低估信度。) (二) 测验的长度 1、测验越长,即题目越多,测验的内容取样就越有可能有代表性。 2、测验越长,被试的猜测因素影响就越小(公式教材52页)。 (三) 测验的难度 a) 如果测验过难,被试的得分会集中在低分区。 b) 过于容易,分数则集中在高分区。 c) 两种情况都使信度样本的得分范围变窄,变异量降低,从而低估测验信度。 (四) 测验的时间间隔
(时间因素之对重测信度和不同时测量时的复本信度有影响。) 【思考题二:提高测验信度的方法:】
1)增加题目数量2)难度适中3)内容同质4)程序统一5)时间充分6)评分客观 四、信度的作用
1、 解释预测个人分数的意义。
两个作用:其一是估计真实分数的范围;其二是了解实得分数再测时可能的变化情形。人们一般采用95%的概率水平,其置信区间为:
公式1 公式2
例如:在一次测验中有些学生得80分(已知该次测验的标准差为5,信度系数为0.84 ),如果再测一次他们的分数将改变多少? 解:Sx=5 rxx=0.84 有公式1得: 2
T=80±1.96*2=80±3.92=76.08~83.92
我们可说这些学生的真正分数有95%的可能性落在76与84分之间。即若再测一次,他们的分数低于76、高于84的可能性不超过5%。 2、两种测验分数的比较。 差异分数的标准误公式为:
公式3
差异的标准误 S 相同尺度的标准分数
分别为两个测验的信度系数
标准误差定义为各测量值误差的平方和的平均值的平方根
例如:某班期末考试,张生语文、数学的成绩转换成T分数分别为65和70,由在此我们可以知道张生的数学比语文考得稍好些,若采取95%的置信区,间二者差异是否有意义? (假定此次语文,数学考试的信度系数分别为0.84和0.91,张生的两个分数转化成T分数后,其标准差为S= 10 ) 解: rxx= 0.84 ryy=0.91 S= 10 由公式3得:5
采取95%的置信区间(即.05显著水平),则张生在这两门课上了分数的差异必须达到或超过1.96SEd=1.96×5=9.8。
因为数学的T分数只比语文高5分,所以差异并不显著。
3、新编的测验信度应高于原有的同类测验或相似测验。
4、下结论说某测验比较可靠,必须是依据情境的,经多次证实的。 5、它是确定测验好坏的一个指标。 第三节 测量的效度 一、效度概述
(一)效度的定义
1、操作定义:效度是指测验能测量到所要测量的对象的程度。 测验测量什么?
测验对测量目标的测量精确度和真实性是多少?
2、理论定义:效度是与测量目标有关的真实分数方差与总方差的比率。 (二)效度的性质
1、效度是针对测验结果的。
2、效度具有相对性(效度是针对某种持定的测验目的的)。
3、效度具有连续性(效度只有程度上的差异)。
4、效度也不是直接就可以测量到的,它是从已有的证据推理而来的。 (三)信度和效度的关系
1、差别:两者所涉及的误差不同
? 信度仅考虑偶然的随机误差占测验总变异的比例,
? 效度既有随机误差,还包括与测验无关的但稳定的测量误差。
2、联系(高信度是高效度的必要条件,而不是充分条件)
效度是受信度制约的
信度是效度的必要条件,但不是充分条件。
要想一个测验的效度高,其信度必须得高;但信度高,效度未必高。 注:
二、效度的估计
1966年美国心理学会在《教育心理测验值标准》中将效度分为三大类:内容效度(Content
Validity);结构(构想)效度(Construct Validity)效标效度或实证效度(Criterion related Validity) (一) 内容效度
1、定义:内容效度是测验题目对有关内容或行为总体取样的适当性程度。这种效度主要是考察测验的内容,因此叫内容效度
测验的内容效度高,必须又两个条件。
测验内容的范围或行为总体必须界定名确(双向细目表);测验题目取样必须代表了内容总体。
2、确定内容效度的方法
(1)专家评定法(又称―逻辑效度‖logical validity)。 ——最常用的方法 评定步骤(54页) 专家评定法的缺点
1) 没有量化指标;2) 对内容效度的判断不一致;3) 教育思想或心理学观点不同,所以对内容范围的理解也不同。
提高内容效度的方法之一:编制命题的双向细目表
(2)统计分析法
复本法:由一组被试取自同样内容范围的两个测验复本上得分的相关。相关的高或低,较难确定内容效度的高低。 再测法
(3)经验法(一般来说,高年级比低年级的水平低,如果总分和题目随年级而增高,则说明测验对教学具有内容效度。) 3、表面效度
表面效度是指测验看起来所要测量的东西,是被试或外行看来是有效的测验. 表面效度与内容效度并不总是一致的.
表面效度能间接影响测验的效度,所以测验编制时也要适当关注表面效度. 例如,最高行为的测验要求有较高的表面效度
职业兴趣测验、成就测验均应该重视测验的表面效度。 对人格测验而言,高度的表面效度是不合适的。
在人格测验中就不一样了。为了引出被试的真实反应,测验编制者并不希望被试了解人格测验的目的。
4、内容效度的应用
?适合于成就测验、职业测验 ?编制任何测验都要考虑内容效度 ?标准参照测验中,内容效度更为重要
(二)构想效度(结构效度)
构想或结构:指用于解释人类行为的理论框架或心理特质,它是心理学中抽象的假设性的概念、特性或变量。
1、构想效度的含义、特点及应用范围
构想效度的含义:测验能够测量到理论上的结构或特质的程度;或指一个测验实际测到所要测量的理论结构和特质的程度;或者说它是指测验分数能够说明心理学理论的某种结构或特质的程度。 特点
(1)构想效度的大小首先取决于事先假定的心理特质理论 (2)当实际测量的资料无法证实我们的理论假设时,并不一定就表明该测验构想效度不高(3)构想效度是通过测量什么、不测量什么的证据累积起来给以确定的,因而不可能有单一的数量指标来描述结构效度。
应用范围(主要用于智力测验、人格测验等一些心理测验方面) 2、确定构想效度的基本步骤
建立理论框架;提出各种可能的有关的假设;检验假设是否成立。
例如,韦氏智力测验就是根据这3步来确立结构效度的。 智力因素理论
假定―智力是一个人去理解和应付他的周围世界的总的才能‖
编制了11个分测验(WAIS—R)或12个分测验 (WISC—R),从十几个方面来说明智力测验编好以后,许多研究者便从众多角度研究了它的效度。用因素分析方法得出的结论是,该测验实质上测量了三类共同因素,即A因素(言语理解因素)、B因素(知觉组织因素)和C因素(记忆和注意集中因素)。
3、收集构想效度资料的方法(1)测验内方法(2)测验间方法(3)效标关联 (4) 实验操作
(三)效标效度或实证效度
1、效标概述
(1)效标是反应测验目的的行为参照,或者是衡量一个测验是否有效的外在标准, (2)效标种类(阿斯丁把效标分为两个层次)
一是理论描述水平的―观念效标‖ (是一个概念) ,二是操作定义水平的―效标测量‖ (对观念效标的量化),效标测量必须能真正反映观念效标。
(3)常用的效标(学业成就、临床诊断、实际工作表现、特殊训练成绩、效标团体比较、先前有效的测验、等级评定。) (4)一个好的效标必须具备的条件 理想校标的几个条件:
相关性:即校标与目前所评价的事物有相关,并适用这一校标来度量。如评价一个英语测验的校标效度,就不能用被试在语文测验的分数作为校标。
有效性:校标与所测的特质之间应该是高度一致的。如一个测验X被用作测验Y的校标,那么应有证据表明测验X是有较高的信度和效度。
无污染:校标的度量不是基于或部分基本正在评价的测验的结果。 就我们正在评价一个抑郁量表的校标效度,我们就不能选择根据在这一量表的得分或部分根据在这一量表上的得分筛选出来的病人作为校标。
客观性:效标可以客观地加以测量,可用数据或等级来表示; 实用性:效标测量的方法简单,省时省力,经济实用。
2、效标效度
(1)效标效度是指测验总分数与外在标准(效标)之间的相关(一致性)程度。 反映的是用测验预测个体在某种情境下行为的表现如何的有效性程度。 (2)效标效度种类
?同时效度(它的效标资料是和测验分数差不多同时搜集的。) ?预测效度(效标是经过一段时间以后才获得的。)
3、效标效度的评估方法
(1)相关法(2)区分法(分组法)(3)预期表法(4)命中率法