试卷管理系统论文 - 图文(2)

2019-01-05 11:03

天津科技大学2010届本科生毕业设计

析理论的问世,现代教育测量理论开始掀起。新理论弥补了经典理论的不足，但是由于新理论本身尚未完善，所以还未得到广泛的应用。

我国教育测量学的研究目前在实践应用阶段，试卷评估实践的理论基础仍以经典教育测量理论为主，对测试进行两项研究：试题的难度和区分度分析以及试卷的信度和效度分析。

难度是指试题的难易程度。试题的难度决定了整份试卷的难度及考试分数的分布。在经典教育测量理论中,难度的计算方法有通过率、平均得分率和极端分组法，随着计算机的广泛应用，目前文献所见，大多数学者推荐采用通过率和平均得分率。

区分度又叫做鉴别力，是指试题对不同水平考生加以区分的能力。区分度的计算方法有很多，如：点二列相关、二列相关、Φ相关、四分相关、积差相关和极端分组法。通常，区分度方法选择取决于考试的目的及试卷与试题的计分方式。有些院校进行试卷评估时为避免大量的数据计算，仅在大题下作区分度分析。熊广星认为从区分度这一指标用以鉴别、筛选题目的功能来说，应对试卷中每一道小题进行分析，仅对大题计算区分度会夸大题目的鉴别力。

信度是指试卷的稳定性和可靠性程度。即将同一份试卷，对同一组参加考试者进行反复测验，所得结果一致，那么这份试卷就具有很高的信度。所以，信度是衡量试卷质量的一项重要指标。

据试卷分数的不同误差来源，可将信度分为再测信度、复本信度、内部一致性信度。在学校的期末考试中，无法方便地取得计算再测信度和复本信度所需的数据，所以，目前试卷评估多为计算内部一致性信度。内部一致性信度是同一试卷的两个部分(例如分为奇数题和偶数题)得分的相关程度。计算方法有分半法、库德理查森公式法及克龙巴赫所创的α系数公式法。

用内部一致性系数估计信度须有一个假设作为前提,即任意两个被试对象测验要测的各部分知识内容掌握程度的差别相同。而事实上，任何两个被试对测验要测的各部分知识内容掌握程度的差别都不会相同，所以用内部一致性系数来估计信度其值将偏低于实际值。马开剑等经过演算,提出了一个简化后的克龙巴赫公式。朱松涛利用方差分析提出显著性检验信度计算公式。

效度是指试卷的有效性和准确性程度，它反映了测量到的与所要测量的二者之间的符合程度。所以，效度是针对一定的测量而言的。

效度分为内容效度、效标关联效度和构想效度。学科测验主要考虑内容效度和效标关联效度。内容效度指选取的具有代表性的样本组成的考试内容是否能够恰当地代表教学内容(教学目标)总体。到目前为止，还没有一种切实可行的统计方法可以用来合理地估计试题取样的恰当程度，只能由有经验的教师、专家依据考试大纲与相应的双向细目表对每道试题进行比较分析来作出估计。效标关联效

天津科技大学2010届本科生毕业设计

度是指考试结果与效标的相关程度。效标是检验考试效度的一个参照标准,通常用公认的比较客观的一次同类标准考试成绩来表示,两者之间的相关系数即为效标关联效度。效标关联效度可用“积差相关法”求得。二、国外发展现状

近年来西方的教育测量运动方兴未艾，在理论上不断地趋于完善和丰富，在教育实践中的应用也日趋广泛和深入。对基于IRT理论的Rasch模型的研究自60年代以来一直是教育测量学研究的重点。由于Rasch模型的成功，大大刺激了科研人员的热情，针对各种不同场合的概率模型提出并大量应用于教育实践。其中最著名的是Rasch模型推广的双参数和三参数Logistic模型。此外，目前国外统计界对于非参数回归模型的理论也有比较深刻的研究，面对浩繁的测量评估数据，如何对它进行深加工，以揭示深层次的问题，把握它们的共性与个性，Lawton等人第一次提出一种既能反映共性又能反映个性的自建模回归模型(Self-ModelingRegression,SEMOR）。Kneip等就模型识别问题作了深入探讨，并提出迭代算法，Kneip等又对此模型进行了改进。尽管IRT理论具有经典测量理论所不具有的优越性：如采用了独立于样本的被测和项目参数定义，而且特别提出了项目信息函数与测验函数的概念，用测验目标信息函数来指导测验的编制。这两个特点对于考试是非常有价值的。但是，只考虑测验目标信息函数而不结合其他非计量指标，如内容和题型的占分比例等，也是不能很好适应教育成就测验的现实需要的。如何将两者有机结合，国外从80年代起开始了一系列研究(E.G.Theunissen,1985;vanderLinden&Boekkooi-timminga,1989;Adema,1990;Swanson&Stockong 1993）

第三节课题研究的意义和作用

自有学校教育以来，人们就开始运用考试这一手段来对学生的才学、德识、

技能等进行测量。考试作为测量、评价学生水平和能力的有效性已被整个社会认可并广泛应用。而要借助考试客观、准确地评价学生的成绩，绝不仅仅依赖于卷面分数，更重要的是利用教育测量的理论对试卷进行分析。不仅如此，试卷评估结果还可反馈于教学活动的各个方面，有效地调节和改善教学系统的运行状况。因此，做好试卷评估工作意义重大，具体表现在以下几个方面: 一、评价试卷质量，确保测量结果有意义

要借助考试客观、准确地测量出学生对知识的掌握程度及学生的能力水平，用于测量的试卷首先应做到规范化、标准化。为了验证试卷的质量，需要对试卷的信度和效度进行分析，因为只有可靠而有效的考试，其结果才能作为评价教学成果或衡量个人学习情况的依据。

二、提供筛选试题的依据，指导课程题库的建设

天津科技大学2010届本科生毕业设计

试题是试卷的组成元素，故试卷的质量是由每一道试题的质量共同决定的。所以，我们还要对每一道试题进行难度和区分度的分析，并以此作为维护、筛选试题的依据，也就是将高质量的试题予以保留以备今后继续使用，而对质量不高的试题予以修改或淘汰。这样，高质量的试题不断累积就可建成题库。这对于提高今后的命题组卷水平，保证测验的高质量，实现测验的科学化均具有重要的意义。

三、提供教学反馈信息，改进教学工作

通过试卷评估，教师可了解学生对于知识的掌握和运用情况，找出带有普遍性的问题，并可进一步分析是教学方法存在问题，还是学生学习过程存在问题或是试题本身存在质量问题等等。通过对教和学双方信息的全面把握，使今后的教学更具针对性，从而提高教学质量和教学效率。

四、将计算机技术应用于试卷评估中，可提高效率和精度

试卷评估的公式繁杂，数据繁多，计算量大，如果单纯采用手工计算，既要花费大量的时间，又难以保证分析结果的准确。目前计算机技术已广泛应用于教学的各个领域，因此根据教育测量学原理开发试卷评估系统是十分必要的，这样，不仅提高了工作效率，而且提高了计算的精度，为教育教学工作提供有效的工具。

第四节课题研究的理论基础

试卷评估系统的设计是以现代考试理论为基础的，当前，现代考试的指导理论主要有两种：经典测量理论（CTT：Classical Test Theory）和项目反应理论(IRT：Item Response Theory)。两种理论的核心部分都是数学模型，它们是基于不同的假设提出的。经典测量理论采用的是线性的定性模型；项目反应理论采用的是非线性的概率模型。不过两种理论仍有许多相互联系的地方，经典理论中的项目统计量与项目反应理论中的项目参数有着很高的相关性，只是项目统计量依赖于被试团体，不具普遍性；而项目参数与被试原体无关，项目参数具有不变性，这可使各个被试团体所得到的项目参数具有可比性。参数不变对提高题库的质量、对于测验的编制和实施适应性测验都是非常重要的。本系统采用的是经典测量理论。经典测量理论的内容有成绩分析、项目分析和整体分析。一、成绩分析（一）平均分数

平均分数是用得最多的一种集中量数。所谓集中量数是指反映分数集中位置这个特征的数值，它代表一批分数，反映一批分数的典型情况，因此常用它进行不同分组之间的比较。集中量数的形式有多种，如算术平均数、中位数、众数等。算术平均数则是最常用的一种。通常用来表示

天津科技大学2010届本科生毕业设计

（1-1）

其中X1，X2，?，Xn表示n个学生在某一次考试中的成绩，表示的是这次考试的算术平均值。简记为

（1-2）

（二）方差、标准差

对于一批分数，除了要了解它的集中量数外，还要了解它的差异量数，即表示分数的离散程度，方差和标准差是用得最多的。若有n个学生的成绩为X1，X2，?，Xn，S2表示方差，则

（1-3）

将方差开方就得到标准差

S越大就表示分数的离散程度越大。二、项目分析

（1-4）

除了对考试成绩的分析外，还要对试卷中的各个试题进行分析。在教育测验中，通常对考试的分析与评价分两方面进行。一是对各个试题进行的分析，称为“项目分析”，二是对整个试卷或考试进行的分析或评价，称为“整体分析”。

学业成绩测验可以用来衡量学生的相对水平，也可用于衡量学生的实际水平。在教育测量中，把用于测量学生相对水平的测验叫做常模参照测验；把用于衡量学生实际水平的测验叫做目标参照测验。

由于存在着常模参照测验和目标参照测验，因此，对项目分析和整体分析也有不同的要求。常模参照测验的项目分析包括难度分析、区分度分析和迷惑答案的有效性分析。（一）难度分析

难度是指试题的难易程度，确定试题难度的方法有多种，其中一种常用的方法是利用下式计算

天津科技大学2010届本科生毕业设计

（1-5）

其中：、、分别表示第j题的难度，考生的第j题的平均分和第j题的满分分数。如果有n个学生，则可利用下式，由考生在第j题上的得分直接求得第j题的难度

（1-6）

其中: Xji表示第i个学生在第j题上的得分。

一个试题，如果受试者全部答对或全部答错，即难度为0或1，这样就无法区分受试者之间的能力差异。难度越近0.5时，其区别力越高。如果一份试卷的各个题目的难度都是0.5，由于题目太同质，又会降低总分数的区别力。所以一张试卷的平均难度除越接近0.5外，还要使试题的难度适当分散为宜。（二）区分度分析

区分度即鉴别度，是指测验项目对被试者的区分程度或鉴别能力。计算区分度的方法有多种，用得比较普遍的一种方法是两端分组法。它是比较得分在高、低两端的受试者通过该题目的比率。

假设PH和PL分别为高分组和低分组通过某个题目的百分比，则下式提供了该题目的区分度的指标

（1-7）

D是区分度指数。D的值在-1和+1之间。D=+1，表示高分组全部答对，而低分组全部答错；D=-1，则与上面的情形相反，低分组的全部答对，高分组的却全部答错；D=0，则表示两个分数组的通过率相等。一般认为，D在0.4以上就非常好了。

上式也可表示为

（1-8）

其中PH和PL分别表示高分组和低分组通过该试题的人数，n为每组的人数。显然，两个组越是处于极端，二者之间的差异越是明显。但很极端的分组（例如最高难10%和最低10%），由于每组的人数太少，会降低结果的可靠性。有人证明，在常态分布中，最高分的分组最佳点是上下27%，以此为分界点，既可以使两个对比组间的差异尽可能大，又可使两组人数尽可能多。当分布比常态曲线更平缓或更陡时，最佳分界点可以比27%稍大或稍小些。当被试的人数太多时，分界点可取25%——33%之间的任何数字，若被试少于100人，甚至可用50%作为分界点，

共8页:

试卷管理系统论文 - 图文(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档