外语教育评价综述(3)

2019-08-29 22:28

The effect of new theories of intelligence on the testing industry; the advent of what has come to be called the \assessment and the increasing popularity of computer-based testing

重要概念：

评价——assessment,它是总称,是总的评估.

测试——test,它是assessment的一种做法,是要有目地,有计划地检验学生掌握到何种程度.

形成性评价——formative assessment 终结性评价——summative assessment 反拨/导向作用——backwash 有效性/效度——validity 可靠性/信度——reliability 可操作性——practicality

表现性评价—Performance assessment

表现性评价有时又叫非传统评价(alternative assessment)或真实性评价(authentic assessment)。

替代性评价--- alternative assessment

测试的种类：

水平考试——proficiency test,如公共英语等级考试,高考.它们只有大纲,没课本参照.

成绩考试——achievement test,如期中考,期末考,中考.它们是以教材为依据的,考查学生在教材范围内掌握的程度.这种考试会导致功利心,如猜题.其实猜题是不道德的,因为在猜题过程中,教师会在无意之中压缩教学范围,这对学生不公. 诊断性考试——diagnostic test,这是小项目的测试,如课堂中dictation, dialogue performance, making sentences, composition writing 等.

分班考试——placement test,它是为了分层教学,也为了更好地了解学生,区分度较高.这种考试在外国比较普遍,在中国就不了.

直接性/间接性考试——direct/indirect testing,直接性考试如写一封信,听对话或独白后填空,间接性考试如以填空的方式让学生解题来考查学生是否会写信了. 分部分的考试/整体化考试——discrete point(即听力,口试,阅读,写作分开)/integrative testing(即我们中国流行的综合卷)

成绩参照/标准参照的考试——norm referenced/criteria referenced testing,成绩参照的考试如托福,三好生评比,操行考评.其目的是使人进步,优点是通过分等级可鼓励一部分人,缺点是一定要有人不及格.标准参照的考试是指只要达到某标准,人人皆可优.

客观性考试/主观性考试——Objective/subjective testing

机考——computer adaptive testing ,如托福,机动车驾驶员考试,错了,再给你类似的另一题,对了,就给你稍难的,一步步前进到所要求的程度.其优点可避免漏题,当然,它也有时间限制.

交际性考试——communicative testing

英语测试与评价的主要作用

了解学生现有语言水平,发现和诊断语言学习中的问题,

检查和评价学生在某一阶段或某一课程学习中对所学内容的掌握情况, 主要是测量学生英语语言知识和综合运用英语的总体水平,

主要是预测学生是否具有学习外语的天赋或潜在能力(aptitude test),

评价和测试设计的原则：有效性(validity) 可靠性(reliability) 可操作性(practicality) 公正性(fairness)

区分性(discrimination

---新课程初中英语教学评价：

http://www.xxdoc.com/view-all-zd3za2zd3zefzbdzcczd1za7zc6zc0zbczdbzd3zebzb2ze2zcazd4-p0-o4.html#download

各种评价手段

1．教师观察（Teacher observation） 2．日常记录（Anecdotal records） 3．评价表（Checklist）

4．访谈／座谈（Interview／Conferences）

5．自我／相互评价表（Self／Peer evaluation questionnaire） 6．读书笔记（Reading journals） 7．多媒体（Multimedia）

8．项目和演示（Projects and presentation） 9．学生档案（Portfolio）

-----http://english.cersp.com/pingjia/xingcheng/200705/2180_2.html

外语测试的分类： 1．按测试目的分类。

（1）学业成绩测试（achievement tests）。成绩测试用来检查学生在整个学习阶段掌握外语知识、技能和能力的程度，如期中测试、期末测试等。（2）水平测试（proficiency tests）。水平测试不是依据某一种教学大纲或某一套教材所规定的内容来进行测试，而是根据从某种实际需要而拟定的标准命题，需要什么就考什么，如我国的出国水平测试（English proficiency test，简称EPT）。（3）能力倾向测试（aptitude test）。能力倾向测试是指对学生学习某种外语的潜在能力和素质的一种测试。

（4）诊断测试（diagnostic test）。“诊断”的本意是指“在检查病人的症状之后判断病人的病症及其发展情况”。外语教学中的诊断性测试则是指对学生在学习外语的过程中出现的薄弱环节进行考查，以弥补以往的不足，调整教学，提高外语教学质量。

2．按评分标准分类。

（1）主观性测试（subjective test）。主观性测试的评分标准是不确定的。正确的答案可能有几个，评分易受评分人的主观影响而显得不稳定，如外语与母语互译和作文等题就是这样。同一份试卷由几个人来评分会得到不同的分数，难以可靠地测定学生真正的外语水平。（2）客观性测试（objective test）。每道题只允许有一个正确的答案，不受评分人员的主观情绪和偏见的影响，还能由电子计算机阅卷、评分，如是非题、多项选择题等。

3．根据测试的着重点不同分类。（1）速度测试（speed test）。速度测试用以测试学生外语听、说、读、写能力的熟练程度，要求在规定的时间内完成量多但难度较小的试题。（2）能力测试（power test）。能力测试用以测试学生掌握知识的深度，题量较少但有一定的难度，需经过一番思索、推理后答题。 4．根据测试命题的方式分类。

（1）分立式测试（discrete—point test）。分立式测试源于结构主义语言学理论，各种语言都能从结构上分成许多小的语言单位进行测试。分立式测试是指对四种言语能力（听、说、读、写）和语言知识（语音、语法、词汇）进行分门别类的测试。

（2）综合性测试（intergrative test）。综合性测试指的是对学生的语言知识和言语能力进行整体的综合性的测试，如完型填充和听写等。（3）交际性测试（communicative test）。交际性测试是测试学生在现实生活中为交际运用英语的能力，如阅读、提示作文等。 5．按评定成绩时的不同参照对象分类。

（1）常模参照性测试（norm—referenced test）。常模参照性测试指的是把某一学生的考试成绩与集体的考试成绩相比较而确定其在集体中所处的相对位置。如他的外语期中考试得全班第一名，则是把他的成绩与他所在班级中所有成员相比较的结果。

（2）目标参照性测试（criterion—referenced test）。目标参照性测试就是在测试之前就规定分数的标准，按标准评定学生的成绩。如满分为100分的外语成绩，一般把80分以上定为好，80分以下60分以上定为中，60分以下定为差。 6．按测试的规模分类。

（1）个人测试（individual test）。指一次只测试一个考生。（2）集体测试（group test）。一般指班级或年级为单位的测试。（3）大规模测试（large—scale test）。如我国的会考和高考。 7．根据测试的形式分类。

（1）口试。指的是以口头形式进行的测试。（2）笔试。指以书面形式答题的测试。事实上，一种测试可以从不同的角度给以不同的称谓。如我国一年一度的外语高考可以说成是笔试、大规模测试、常模参照性测试、综合性测试（包括分立式测试）、学业成绩测试、水平测试等。

外语标准性测试的指标

1．效度（validity）

效度指的是一种测试所能取得某些目标的有效程度。效度还可分为内容效度、结构效度、卷面效度和效标关联效度。（1）内容效度（content validity）。内容效度指的是测试反映出具有代表性的课程内容的程度，即测试的内容是否具有代表性，是否充分概括了所学的内容。假如我们想评估学生为交际运用外语的能力，却给他们做一份只用语法知识便能回答的多项选择试卷，其效度就很低。我们只有测试考生在真实的情景中运用外语的能力才能取得评估学生为交际运用外语的能力的效度。要想提高测试的内容效度，须遵循以下几个步骤：①由各科有经验的教师或专家根据教学大纲分别列出教材内容的各项重点和所要测量的各类学习结果；②各项教材内容重点和学习结果的分数比例可根据教学时数、专家意见等来确定；③编制命题双向细目表；④依照命题双向细目表的具体规定来编拟试题。（2）结构效度（construct validity）。结构效度就是指测试分数能够在理论上用某种结构来得到证明。简要地说，就是测试的理论基础是否正确。“水平”（proficiency）是一种结构，“为交际运用外语的能力”是一种结构。实际上，某

一种测试就是某种结构的有效的解释。一般的水平测试包括语法判断题、阅读理解题和听力理解题三个部分。包括这三个部分或与这三个部分相关的测试，我们就可称之为“水平”测试。

（3）卷面效度（face validity）。卷面效度与师生对测试的反应有关，如试卷清晰与否？这种试卷能否比较理想地评估学生？试卷难否？这些都需要通过与师生的交谈或用问卷调查方可获得。

（4）效标关联效度（criterion-related validity）。效标关联效度就是指寻找一种能够反映测试有效的客观标准（即效标），进而考察这次测试与效标之间的相关程度。相关程度愈高，则测试的效度愈好。这里，效标是检查测试效果的参照标准，而如何获得一个比较适合的效度标准则更重要。我国现在实施的标准测试，其试题多，覆盖面广，是经过有关专家和权威机构认可的效度好的测试。它可以作为另一次测试的效标。

效标关联效度还可以分为同时效度和预测效度。这两种效度的主要区别在时间的间隔上。 ①同时效度（concurrent validity）。同时效度指的是一次测试的成绩与时间间隔不长的另一次测试获得的效标之间的相关程度。如对初中毕业升高中、高中毕业升大学的学生进行一次外语摸底测试，以便按外语水平分班编组。入学测试分数高的学生其摸底测试分数也高，入学测试分数低的学生其摸底测试分数也低，这说明，入学测试具有很高的同时效度。②预测效度（predictive validity）。预测效度指的是一次测试的成绩与时间间隔较长的另一次测试获得的效标之间的相关程度。但应注意，测试与效标的间隔较长而且效标在后。例如，学生在进入大学学习半年、一年外语以后，我们可以通过计算高考与大学一年级外语成绩之间的相关系数来评估高考的预测效度。如果高考很有效的话，那么在高考中得分高的学生至少在大学一二年级的学习应倾向于更有效。这里，大学一二年级的外语成绩就成了衡量高考效果的一种效标。

效标关联效度的相关系数（r）最大值为+1.0，表示测定值完全反映了所要测试的目的和要求；最小值为-1.0，表示测定值与所要测试的目的要求完全相反；效度值为0，则表示测定值与所要测试的目的要求毫无关系。-1≤r≤1，例如：某校想要检验毕业生英语的测试效度，就在近几年来高考英语试卷中选择较好的一份作为标准，在这批高中毕业生中进行测试。随机抽出10名学生并且列出这两次测试的成绩，看毕业生英语测试的效度如何。