工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计
便用户的使用,使界面更加友好,最大限度的体现用户至上的理念。同时该系统在功能上注重个性化设置,主要体现就是以IRT(项目反应理论)指导系统开发,以克服传统考试模式中,无视学生能力的差异性,所有的学生都使用同一张试卷,不能动态的根据学生能力量身定做合适的试卷,不能最大限度的测试出学生的能力水平。
2、题库是关键
考试系统中题库的设置重要性不言而喻,其中题库的数量要足够的多,能尽可能大的覆盖所有的知识点。题库设置的关键是题目参数的确定,考试能力的测试是建立在准确有效的题目参数上的,因系统使用三参数的Logistic模型,故确定这三个参数非常之重要,即试题的难度、题目区分度、猜测度。在此根据专家数据库的方式,参照模型进行参数设置优化。
3、系统的实用性
由于该课题来源于教学实践过程中,有很强的实有价值。根据本校的教学实际情况,采用C语言作为测试课目,该试题库来源于景德镇陶瓷学院信息工程学院《高级语言程序设计》课程建设组编的高级语言程序设计习题集。由于IRT还处于测试阶段,考试分为普通的随机抽取试题和IRT测试两种类型,用户可自由选择。
4、系统的可扩展性
目前学校的教务管理系统已经投入使用,为更好的整合资源,提高系统集成能力,尽量的使该系统能与教务管理系统对接,使教务管理更加完善。
3.4 基于IRT的CAT系统的功能模块设计 3.4.1总体模块设计
根据系统功能的要求,CAT考试系统分为3个模块。即学生在线考试系统和教师管理系统和管理员系统。可以将系统分解为几个功能模块来设计,各功能模块之间的关系如图:
24
工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计
图3-2 模块关系图
1、前功能要求
前台用户注册,登录功能
用户普通考试功能,系统设置,成绩查询功能 用户IRT考试功能 系统功能模块 2、后台功能的要求 教师登录功能
添加,删除,修改题库 添加,删除,修改用户功能 系统设置功能 系统管理员管理功能 数据库备份 系统用户管理
该子系统实现学生的网上考试过程,主要包括:
①、考生登录——该子系统接受考生输入的个人身份信息,进行验证,允许合法考生进入考试系统,进行考试。
②、计时答卷——考生进入后,系统计时开始,考生进行答卷。 ③、试卷提交——包括考生在规定时间内主动提交试卷和考试时间己到,系统强迫提交试卷。
④、自动判卷——考生交卷后,系统自动判卷,把分数显示给学生。 ⑤、成绩记录——把考生获得的成绩插入到数据库成绩表中。
25
工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计
图3-3系统结构图
3.4.2 普通考试模块功能设计
1、随机抽取试题
随机抽取试题采用在SQL中简单的存储过程来实现。通过对数据库中
试题表的随机重新排序,组成一个随机的试题顺序表,然后从中抽出前50道或者更多的试题。
2、题目显示
由于试题是动态生成的,故本系统中采用动态生成控件,然后将题目具体以选择题为例,先在界面上放置一个panel控件,以便将题目信动态的绑定到选项中去。从而为下一步的计算成绩做好铺垫。
息所相关的控件都放置在该控件内。题目信息用Label控件,选项用RadioButtonList控件,在试题库中抽到a、b、c、d 内容,动态的添加到数组列表ArrayList中去,然后将该ArrayList绑定到RadioButtonList
26
工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计
上,就实现了试题的动态显示。
3、显示记录成绩
在显示记录成绩中,我们首先要找到用户在题目中的选项,然后与题库中的标准答案对比,若正确则记分。其中查找用户选择的答案,通过题目的RadioButtonList名称采用FindControl找到SelectedValue即可。
评分完成之后,按用户的用户名,题目类型,分值插入成绩表中去。
3.4.3 IRT考试功能模块
整个考试系统主要分为前台和后台两个部分,后台包括试题库、管理维护与统计分析等;前台则向用户提供各种形式的自适应考试。
在自适应考试过程中,系统必须解决以下三个问题:①、如何开始,即按何种策略选择第一题;②、如何进行下去,当考生完成一道题以后,如何选择下一道题;③、如何结束,即确定考试结束的终止条件。针对上述三个问题,本系统拟采用如下施测方案:[25,26]
1、试验性探查阶段
系统采用这样的初始选题策略:如果被试参加过测验,则根据历史记录确定受测者的初始能力值,以此确定此次的开始题目;若被试没有参加过测验,则由被试自行决定自己的能力程度,选择测试的起始题目。
在初始难度确定后,本系统首先将10道题目作为一组测试项目,当被试做完10道题目后,如果被试的回答情况全对或全错,则选取一道极难或极易的题目,以使这个阶段能实际终止。如果在再次选择10道题目以后,被试的回答情况仍为全对或全错,则说明题库中的试题对于被试而言太难或太易,无法测出被度的真实水平,此时则终止测验,并向被试反馈预测结果。
如果被试的答题情况有对有错,则利用极大似然法初步估计其特质水平θ,结束试验性探查阶段。 2、后继选题策略
在初步估计出被试的能力水平后,如果选取下一道试题,才能精确地估计被试的能力水平呢?
项目信息函数是直接反映测验分数对被试能力水平的估计精度的指标。项目信息函数越大,对被试能力水平的估计就越精确。一个项目所能提供的信息量,在项目质量参数已知的情况下,也并不是固定不变的。它的取值取决于所测被试的特质水平。也就是说,同一个项目在测验高、中、低水平的被试时,它所能提供的信息量是不一样的。在项目质量参数不变的情况下,项目信息函数的取值是随所测被试的特质水平的不同而变化的,而且所测被试的特质水平越近试题难度,信息函数的取值越大。
27
工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计
因此,如果已知一个被试的某项特质水平,且测量该特质水平的题库也已建成,那么就可以为该被试选择一系列能提供最大信息量的项目。
选题原则确定后,每做一道题目,系统都根据被试的反应利用极大似然法估计被试的能力值,继续选择施测题目,增加信息量,直到满足测验终止条件。
3、测验终止策略
施测到什么时候结束,取决于我们对测量精度的要求。因为题目信息量的累加和就是测验信息函数值,而估计的标准误差就等于信息函数平方根的倒数。随着施测题目的增加,信息量的累加值也不断变大,当这一累加值达到指定要求时,测验即可终止。但是用这种方法容易造成测验过长,尤其对于两种极端能力水平的被试而言,因而这种方法的效率较低。因此,我们采用以下两种方法相结合:
①、当测验项目达到一定的数量之后,测验就自动终止,这种方法的优点是易于实现,且对每个测验项目的使用率作较精确的统计;缺点是对不同被试的特质参数的估计精度不同,而且要确定一个合适的长度一般来说并不容易。
②、比较被试特质参数最后两次的估计值,当这两个值之差小于某一预先给定的数值之时停止。这种方法得到的被试能力水平的估计精度与指定信息函数值的方法十分接近,但所使用的测验项目数量要少得多。
我们使用的测验终止策略是以上两种策略的结合,即只要满足其中一个条件测验即终止。
图3-4 logistic 反应模型
28