基于IRT理论的计算机自适应考试系统的设计与实现8(3)

2019-04-22 20:54

工程硕士学位论文 1 引言 CAT最大特点就是基于参数估计，是由考生在上一个作答中的表现进一步来估计该考生的能力水平，此次的作答结果作为下一次估计的依据。这样，一旦某一次参数估计出现偏差，可能就会导致偏差越来越大，对至于最终的参数估计不适用。

3、系统的可靠性无法得到保证

当举行大规模的考试的时候，比如全国范围内的计算机等级考试、高考等，由于是基于网络的考试，一旦网络出现问题，后果将不堪设想。即使网络能确保不出现问题，如此大规模的考试要保证系统交互的及时性，网络流量和容量的要求也是非常高的。

CAT在理论上已经比较成熟，但在实际应用中，还是难以保证，需要在实践中不断验证和完善。

总而言之，目前国内的CAT研究还处于小规模应用或者是部分实现阶段，大规模投入使用还有待各方面研究有进一步的突破。 1.3本系统目标和系统技术要求

1、总体目标：

以科学的自适应考试理论为指导，结合先进的项目反应理论，设计、开发出高性能、适应性强的网上考试系统。

2、具体目标：

(1)、以大容量试题库为基础，应用IRT，实现计算机自适应考试； (2)、打破现有考试指定具体统一时间的限制，让学生在自己认为最佳状态时参加考试，使考试尽量真实地反映出学生的水平；

(3)、尽可能提供考试到考分查询的一系列全面功能； (4)、加强数据管理和维护，保证数据的权威性和一致性；

(5)、结合网络技术，打破地域空间限制，为系统的推广创造条件； (6)、增强系统后台管理能力。 3、本课题关键技术在于：

(1)、技术上，以CAI理论为基础，如何迅速根据考生以前的答题情况决定下一个或一批试题，即参数估计的大量计算问题；

(2)、如何在当前网络条件下，高效地保证系统的运行速度； (3)、如何保证题库设计的科学性。包括大容量试题库的收集、整理和分类。

4、该系统实现并投入使用后，预期有以下效果：

(1)、考试形式将改变。现有考试将不再使用统一试卷、统一时间、统一地点的方式，被测者可以自已决定何时何地进行测试，系统引导考生进入系统后，根据考生信息生成试题，再根据考生作答情况进行分析，给出

工程硕士学位论文 1 引言下一道题目。因此，系统会根据考生答卷情况随时修改出题策略，理论上不会出现相同试卷，考生所花时间也会不同。但是，由于技术和环境的问题，目前还是不能做到在任何地点均可进行测试。

(2)、监考方式将改变。在新系统下，监考人员的任务简化为只需确认考生身份，因此，很大的区域可以只设一个监考人员，从而减少投入。

(3)、简化考务处理。在新系统下，可以大大减少人力物力的投入。 1.4 本文主要内容简介

本系统着眼于现有的网上考试系统的现状，分析其主要的不足，引入了计算机自适应考试系统的概念，力图使考试可以在任何时候、任何地点都可以进行，并且，考试过程和考试时间也根据学生的水平而有所不同，以使考试的方方面面都可以根据学生的不同而自适应调整的。

分析了引入自适应考试系统的困难，本文提出将IRT引入到系统的实现中，来帮助解决多参数复杂模型的准确估计和计算量大的矛盾以及保障系统交互性和可靠性的困难。

本文主要内容如下：

在第一章中，本文首先详细分析了现有考试系统的缺陷和不足，以作为本系统开发的主要依据，并提出了研究本系统的意义所在；

第二章介绍了计算机自适应考试理论的原理和主要的实现思路，重点介绍项目反应理论，及对开发的指导意义；

第三章对基于IRT理论的CAT系统进行总体设计与分析，对系统的各功能模块进行了设计，介绍了系统设计过程；

第四章采用M M L E/E M算法进行参数估计，对IRT项目参数估计模型进行了改进，采用一种运用特征函数计算出难度系数的方法，对CAT考试系统抽题策略进行了改进，介绍了基于改进的IRT理论的CAT系统的实现，对用户管理模块、考试模块、IRT考试模块进行了详细的阐述；第五章对系统进行了测试及实例分析；

论文最后对系统的设计开发过程进行了总结，展望了自适应考试系统的发展趋势，提出了今后的研究方向。

工程硕士学位论文 2 自适应考试系统理论及基础 2 自适应考试系统理论及基础

2.1 项目反应理论（Item Response Theory）概述 2.1.1项目反应理论

CAT测试是建构在现代测试理论——项目反应理论（IRT）基础之上的，从试题库的建设到试题的选择再到最后的改卷，都是在IRT指导下进行的。CAT因此也被认为是现代测试理论对测试的最大贡献[11]。Hambleton和Swaminathan对项目反应理论作了如下定义：在测验情景中，通过定义被试的特征，即特质或能力、估计被试在这些特质上的得分（称作能力分数）、并运用这些分数来预测或解释项目以及答题情况，来解释和预测被试的作答[12]。特质（能力）和项目（试题）是IRT的两个核心概念。两者之间的关系是IRT的主要内涵。IRT和其指导下的计算机化自适应考试主要研究内容和理论支撑有:参数估计、测验等值、选题策略和终止规则。 2.1.2 项目反应理论的发展

当今主要有两种考试指导理论：（1）经典测试理论(CCT)，（2）项目反应理论(IRT)。通常纸张考试和传统考试都基于经典测试理论，它是以信度、效度、区分度等统计特征量为中心的测试理论，它的主要问题是这些统计特征量与被测试的样本数据有关。被测试的样本不同，求得的统计特征量的数值也不同，这显然是不合理的。项目反应理论正是基于这种情况下出现的。它的最大的优点是项目参数的估计与被测试的样本无关。它根据被测者对问题的回答情况，通过题目特征函数的推算，来推测被测者的能力。项目反应理论研究中的一项重要工作就是确定项目特征曲线的形态，然后得出项目特征函数(item characteristic function；简记为ICF)。人们常说的项目反应模型通常就是指项目特征函数[13]。

项目反应理论的基本思想起源于上世纪30年代末至40年代初，在1948年，维克(Tucker)正式提出了“项目特征曲线”概念，把表征被测试者的能力或特质水平与其对一个测验项目的正确反应概率之间的关系描述为二维的曲线图。

1953年，美国教育测量学和心理学家洛德(Lord)提出了著名的正态卵形模型以及该模型的参数估计方法，并成功地将他的模型应用于实践。随后，在1958年，伯恩鲍姆(Birnbaum)提出了便于处理的逻辑斯蒂(Logistic)模型以及相应的统计计算方法，取代了洛德的正态卵形模型，进一步推动了项目反应理论的发展。

工程硕士学位论文 2 自适应考试系统理论及基础自上个世纪80年代以来，项目反应理论在其各个方面，如测试设计、参数估计方法、测试等同化、自适应测试等方面，都取得了很大的发展。当前人们对项目反应理论的研究工作，主要在两方面，在理论方面侧重于连续变量测验资料和多维情况下的数学模型探索上；而在应用方面，则侧重于模型——资料拟合深度检验方法和参数估计方法的改进，以及项目反应理论在测试编制、测试参数等值、题库建设等实际问题上的应用。 2.1.3 项目反应理论的基本原理

大家都清楚，考试的目的在于用测验分数来将表达被测试者不能直接测量的内部潜在特质，从而推断和评估其能力水平。项目反应理论是建立在潜在特质理论的基础上的，它通过建立一定的项目反应模型来描述这种关系的。项目反应理论的最大特点是：它找到了一条项目特性曲线并且以多种数学表达式(即数学模型)来描述它和逼近它，形成了不同的项目反应模型[14]。显然，不同的数学模型对曲线有不同程度的逼近也含有个数不同的参数。项目特性曲线的数学模型一般来说均包含两方面的参数: [15]

一是用来刻画测验项目的特征的项目参数；二是用来刻画考生特征的能力参数或称潜在特质。

根据以上参数，可以对测试项目的质量做出评价，也可以测算出单个考生自身在任一测验项目上的反应，从而估计出潜在特质的量数，即考生完成测验项目时所真正具有的能力或特质。从理论上说，彻底解决了经典测验理论无法建立测验项目参数之间与考生得分两者间函数关系的问题。 1、基本假设

项目反应理论的基本假设主要有三方面: （1）、潜在特质空间的单维性假设

所谓单维性假设，指测试只测量被测者的某一种能力(如阅读能力)，而可以忽略其他能力对测试结果的影响(如判断能力)。也就是说，被测者对测试项目的反应只受一种能力水平的支配而不受其他能力水平的影响。

但实际上，任何测试都不可能是单维的。影响被测者对测试项目反应的因素，除了该测验所测量的能力或特质外，通常还包括测验情景、个性以及认知等方面的因素，如测验焦虑、外界环境等。因此，项目反应理论的关于测验的单维性假设并不是真正意义上的单维性假设，首先该因素是测试所要测量的能力或特质，并且在所有影响被测者反应的因素中占主导地位，且这种主导地位是唯一的，那么这样的测验可认为是单维性测验。

（2）、局部独立性假设

局部独立性假设是指对同一特质水平或能力的被测者能力而言,项目间不存在相关性。这与一维性假设一个道理,它是指被测者对测试中不同

工程硕士学位论文 2 自适应考试系统理论及基础题目的反应在统计上是互不干扰的，是独立的。也就是说考生在其他题目上的正确反应概率不会影响到在此次测试中对某题目的正确反应概率。可以认为，被试者对某一测验项目的反应只与该测验项目本身的性质有关，不会受到其他测目反应情况的影响。

同理，在同一项目上各被试者的作答也是互不干扰的，仅由被测者的潜在特征决定，一个被测者的成绩不会影响别的被测者的成绩。

（3）、项目特征曲线假设

指考生对项目所作反应的概率遵循一定的函数关系,这种函数关系可以用项目特征曲线形式展示出来，是对考生某项目的正确反应概率与其能力之间的函数关系所作的模型。 2、项目反应模型

不同的项目特性曲线假设对应着不同的项目反应模型，当前应用最多的二级评分的单维非线性项目反应模型，以伯恩鲍姆提出的逻辑斯蒂模型为代表。多维模型及连续性模型比较复杂，目前都还处于研究阶段。下面着重介绍两种二级评分项目反应模型：最优量表模型和逻辑斯蒂模型。

（1）、最优量表模型

最优量表模型是古特曼提出的，所以又称为古特曼模型。古特曼认为，对于一个测验项目，如果被试者的相应能力或特质θ达到或超过了难度水平b，那么被试者就能对此项目作出正确反应，反之则不能。如图2—1所示，古特曼模型的相关被试曲线是一条阶梯曲线，图中的b通常被称为项目难度。

图2-1 古特曼模型

在实际测量中，大量的分析和统计结果表明，大多数情况下，即使被试者的能力或特质水平θ达到或超过了某个水平b，被试者也不一定能对难度为b的项目作出正确的反应；反之亦然。所以，古特曼模型存在很大的局限性，在实际中很少应用。

（2）、逻辑斯蒂模型

共8页:

基于IRT理论的计算机自适应考试系统的设计与实现8(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档