工程硕士学位论文 2 自适应考试系统理论及基础 :受测者答对第i题的概率 :受测者答错第i题的概率
公式2-8通常称为似然函数,我们要对每一个反应向量( 式2-9)逐次迭代,求出能力的极大似然估计值
其中:
为第t+1、t次迭代的能力估计值。
; (2-10)
。
)
求出相应的θ值,使似然函数的值为最大。我们以Newton-Raphson法(公
(2-9)
; (2-11)
(2-12)
D:1.702 i:题目编号
:第i题的区分度、难度、猜测系数 :受测者答对第i题的概率 :受测者答错第i题的概率
:受测者的反应(答对为1,答错为0)
采用极大似然估计法估计受测者能力值的最大好处是简便实用,它比较适合于题目较多的情况。在本系统我们采用专家意见和极大似然法相结合的办法确定受测者能力。
2.2 自适应考试(CAT)系统的原理 2.2.1 什么是CAT
CAT是用项目反应理论建立题库、由计算机根据被试能力水平自动选择测试题目并最终对被试能力做出估计的一种新型测试。它有别于传统的纸面测试,它的试题呈现和被试者对试题的解答都是通过计算机完成的;CAT与一般的计算机化测试又有所不同,计算机在测试过程中不只是呈现题目、输入答案、自动评分、得出结果,而且要根据被试对试题的不同回答,自动选择最适宜的下一测试试题,最终达到对被试能力做出最适当的
14
工程硕士学位论文 2 自适应考试系统理论及基础 估计,因此,CAT是“因人施测”的。
比较早应用自适应测试的例子是1912年Binet所作的智力测验的研究。随后一度中断好久,直到60年代中期,洛德在教育测验服务社期间进行了比较完整的通盘研究。因为洛德感觉到,针对高水平与低水平的考生而言,固定长度的测验无法有效地满足这些考生能力估计的需求,而CAT则能解决这一问题,因此极力投入这一研究之中。洛德认为:如果被挑选用来施测的试题都能针对每位考生能力提供最大的参考讯息的话,则缩短测验的长度(即减少施测的题数)应该不会降低对每位考生能力的精确测量。从理论上来说,每位被试者所接受的施测试题,应该都是不同的试题组。计算机化自适应测试具有以下其它测验无法相比的优点:[19,20]
(1)、它可以因人而异地选择试题,试题针对性强,能够用较少的题目、较精确地估计被试者的能力水平。
(2)、它可以由被试者自由选择测试的时间,不必规定统一测验的时间。这是因为计算机化自适应测试是因人而异的,不同的被试者面对的试题是不一样的,因此没必要因害怕泄露试题而规定统一的测验时间。
(3)、有音频、视频和图像文件,使用多媒体技术,可产生各种生动、形象的情景,使测验呈现方式能满足多种测验目的,同时更能激发被试者的测验动机。
(4)、能第一时间了解测试结果,并能在短时间内通过网络将测试结果传送到所需的各个地方。
2.2.2自适应考试(CAT)系统的原理
难易适中的试题,对估计考生能力的精确性最为有效。一份试卷的试题难度,很难满足或适合每位被试者的能力水平,而自适应测试方式则解决了这一难题,它能做到试题难度随考生能力不同而调整。而最适合在自适应测试中作应用的,便是项目反应理论。CAT是在项目反应理论基础上发展起来的一种测试,它是一种在项目水平上进行分析的测试。
在CAT过程中,呈现给被试者的试题顺序,是依据被试在前一个试题的作答情况的表现情况来作决定的。根据被试者先前的表现好坏,下一个要呈现给被试者作答的试题,便是对被试者能力估计精确性最有贡献的最大讯息量的试题。这样一来,测试的长度便可以缩短,并且也不会牺牲任何的测量精确性;因为对于高水平的考生,没有必要给他相当容易的试题进行测试,而对于低水平的考生,也没必要给他难度非常大的的试题进行测试,因为这些试题对他们的能力水平的估计而言,只能提供极为有限或丝毫没有帮助的讯息。因此,实施计算机化自适应测试,不仅可以做到因材施测的精确估计考生能力的地步,也可以节省许多施测时间和成本,可
15
工程硕士学位论文 2 自适应考试系统理论及基础 说是至少事半功备,一举两得。
在开始进行计算机自适应测试之时,先由计算机终端机随机呈现一组测试试题,在考生作出反应之后,计算机便根据这些反应资料,估计出考生的初步能力估计值;然后,计算机会根据这些初步能力估计值,从现有的题库中挑选出最能对能力水平的估计发挥最大贡献力量的试题(通常这些试题的讯息量也是最大),再呈现这些试题给考生作答;这样,随着被试做的题目增多,计算机对他能力的估计精度越来越高。这种施测过程一直继续下去,直到事先预定的施测题数已测完,或某种预定的能力估计值的测量精确性己获得为止。
具体的自适应考试模型设计如下[21]:
(1)、起点问题:我们把难度平均值为中等或者是教师直接手动生成的试卷作为初始项目,当被试者完成该初使项目后,得出试卷中每道试题的答题正确率,并统计整套试卷的答题正确率,如果该值偏高(高于某一预先设定的值),则认为对于这一考生群体来说本套试卷平均难度值偏低;如果正确率偏低(低于某一预先设定的值),则认为对于这一考生群体来说,本套试卷平均难度值偏高。
(2)、能力估计:该系统采用最大似然估计法通过被试者的似然函数区最大值来求被试者的能力参数θ:
L(x1,x2,x3,...,xn|?)??Pj(?)jQj(?)j?1nx1?xj n
?lnL(x1,x2,x3,...,xn|?)??[xjlnPj(?)?(1?xjlnQj(?))]j?1 ln( ? n ) ? max(ln ? ) (2-13) (3)、项目选择(选择题目):当被测者完成作答后,系统对此次作答进行测试项目分析,得出考生的能力参数θ,再根据能力参数θ来计算考生群体的能力值P (θ)。本系统采用项目反应的Logistic模型中的双参数模式:
?Da(θ?b) 1 ? e , (2-14)
P(?)?1其中,a和b分别取该套试卷的平均难度值和平均区分度值。把计算得出的能力估计值P (θ)作为下次出题时的难度参考值,在出题算法中运用。
(4)、终止原则:一般情况下,自适应算法是针对单个考生而言的,因此针对该考生的测试必须有一个结束的过程,这就需要用到终止原则。而在本系统中,不考虑单次考试的自适应,而是把本次考试结束后分析得到的修改建议保留到下一次系统组卷时使用,因此不考虑终止原则。自适应考试流程描述如下图2-4:
16
工程硕士学位论文 2 自适应考试系统理论及基础
图2-7 自适应考试的流程描述图
根据图2-7 看出,出题者根据组卷策略确定不同类型试题的难度值生成试卷,被试者答题。出题者再根据答题的结果判断被试者能力,然后再计算新的难度值,如此循环。在本系统中,不存在单次考试的自适应,而是把本次考试得到的参数修改保留到下一次系统组卷时使用,因此不考虑终止原则。
17
工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计
3 基于IRT理论的CAT系统的分析与设计
3.1 CAT系统的开发工具及运行平台
(1)、操作系统:Windows 2000 Server/Advanced Server/NT Server
微软公司的Windows系统不仅在个人操作系统中占有绝对优势,已在网络操作系统中也是具有非常强劲的力量。这类操作系统配置在整个局域网配置中是最常见的,但由于已对服务器的硬件要求较高,目前的稳定性能不是很高,所以微软的网络操作系统一般只是用在中低档服务器中。在整个Windows网络操作系统中最为成功的还是要算Windows NT 4.0这一套系统,它几乎成为中、小型企业局域网的标准操作系统,一则是它继承了Windows家族统一的界面,使用户学习、使用起来更加容易;再则已有的功能也的确比较强大,基本上能满足所有中、小型企业的各项网络需求。虽然相比Windows 2000/2003 Server系统来说在功能上要逊色不少,但对服务器的硬件配置要求要低许多,可以更大程度上满足中、小企业的PC服务器配置需求。
(2)、开发工具:VisualStudio.net2005环境
.NET——微软的说法是“.NET被定义为:是为简化在第三代因特网的高分布式环境下的应用程序开发,基于开放互联网标准和协议之上的,实现异质语言和平台高度交互性,而构建的新一代计算和通信平台。”[22]也就是微软以服务的方式递交软件的一种策略。.NET推出的初衷是为了使现有的WWW不仅是一个信息发布平台,而成为一个拥有超强计算能力的智能平台。Internet发展到现在,通过HTML、ASP等技术可以把界面轻松的送到Web上,但是直接把函数发布到网上,从而使客户像浏览页面一样轻松地调用还不太可能。各种不同的编程语言、实现平台、底层硬件都增加了这个问题的复杂程度。DCOM、CORBA等就是具有函数发布的雏形系统。它们在小范围内效果很好,但一旦面向Web,就力不从心了。.NET就是为解决这些问题而推出的一套解决方案,他通过三个组件:.NET框架、Web服务、.NET企业服务器来实现这一目标。Microsoft.NET将创造出真正的分布式网络服务,它能够整合并协调为数众多的辅助程序,为消费者提供独到的服务——而这正是今天的网站所梦寐以求的。Microsoft. NET将推动新一代因特网的发展。它将真正地让人们可以在任何时间、任何地点、通过任何设备得到信息。.NET框架实际上是未来的.NET战略平台。它是所有.NET应用的基础框架,提供创建、部署和运行.NET应用的环境。.NET框架也是异构平台互通的关键。任何支持.NET框架的硬件系统
18