【外语教学】大学英语四级考试质量评估:基于经典测量理论和Rasch模型的数据分析

原创张琳陈琳丽当代外语研究

摘要:“本文从通识教育的特点、大学英语课程和大学英语写作目前的教学状况以及大学英语写作的重要性等方面分析了大学英语写作与大学英语和通识教育之间的关系。文章指出大学英语课应该细分为不同的课程，而且大学英语写作课程应该纳入大学通识教育必修课程体系之中。中国大学英语改革的主要目标应该包括培养和提高大学生的思辨能力。”

　　1. 引言

　　外语测试是外语教学的重要组成部分,是检查教学大纲执行情况、评定外语教学水平以及考核学生外语能力的一个重要手段。同时,外语测试还能对外语教学的内容和方法产生反拨作用。大学英语四、六级考试作为评价在校大学生英语能力的主要手段之一,其科学性和公正性得到了社会的普遍认可。就考试的后效来看,四、六级考试对我国大学英语教学起了积极作用,为我国大学英语教学质量的提高做出了巨大的贡献。为了满足社会发展的需求,更好地服务于大学英语教学,四、六级考试自1987年开始实施以来,在考试内容和形式上作过多次调整。自2013年12月起,四、六级考试在试卷结构和测试题型上再次进行了调整,旨在进一步提高考试的效度以及考试对教学的后效,更好地促进大学生英语综合应用能力的培养和提高。

　　对于一项涉及上千万考生的大规模高风险考试而言,确保考试的质量至为关键,因此有必要对题型调整后的考试质量进行评估,以检验新题型是否符合考试质量的要求,调整后的考试是否达到了设计者预期的效果。本文将采用经典测量理论和现代测量理论相结合的方法,基于考后数据对调整后四级考试的试题质量进行初步评估,从而对四级考试的效度作初步验证。

　　2. 调整后的大学英语四级考试题型

　　Messick指出,应当通过改进考试设计来提高考试效度,为考试产生良好的后效打下基础。因此,四、六级考试委员会经过严格的科学论证,自2013年12月考次起对考试的内容和题型作了进一步调整,以期考试对大学英语的教学和学习产生更好的促进作用。

　　调整后的四级试卷由听力理解、阅读理解、翻译和写作三大部分组成,所占比例分别为:听力35%,阅读35%,翻译和写作30%。调整后的四级试卷结构、测试内容、测试题型、分值比例和考试时间如表1所示:

　　调整后的四级考试取消了多项选择题型的完形填空,另有三个题型作了局部调整:

　　(1) 单词及词组听写

　　原复合式听写调整为单词及词组听写,短文的长度、难度以及播放次数不变,所占分值比例不变。原复合式听写要求考生根据听到的短文内容填写空缺的单词和句子,单词要求用听到的原文填写,句子可以在理解原文内容的基础上用自己的语言表述。此部分调整后,要求考生在听懂短文的基础上填写空缺的单词或词组,所有单词和词组均要求用听到的原文准确填写。

　　(2) 长篇阅读

　　原快速阅读理解调整为长篇阅读理解,篇章长度和难度不变,所占分值比例不变。原快速阅读理解要求考生阅读一篇较长篇幅的文章后作答7道多项选择题及3道句子填空题。现调整为篇章后附有10个句子,每句一题,每句所含的信息出自篇章的某一段落,要考生找出与每句所含信息相匹配的段落。

　　(3) 段落翻译

　　原单句汉译英调整为段落汉译英。原单句翻译共5句,每句一题,要求考生根据中文提示将每句的部分内容翻译成英语,使句子意思完整。调整后,要求考生将所给的中文段落全部译为英语。整个部分所占比重由原来的5%上升到15%,答题时间也由原来的5分钟增加至30分钟。翻译内容融入了中国元素,涉及中国的历史、文化、经济、社会发展等各个方面。为了保证翻译评分的信度,考试委员会制定了统一的翻译评分标准。评分采取整体印象法(holistic marking),主要考虑意思表达的准确程度和语言的质量两个方面。满分15分,分六个档次,每个档次应达到的水平都有详细的文字描述。

　　另外,此次题型调整后,构建型作答试题(constructed response items)所占比重进一步增加,达到了整卷的40%,从而更好地测试学生的语言综合应用能力。

　　3. 2013年12月四级考试数据分析

　　调整后的四级考试于2013年12月首次实施,笔者从此次四级考试所采用的试卷中随机抽取一份试卷,并在作答所选四级试卷的考生总体中抽取了部分考生的数据进行分析。根据分层随机抽样原则抽取了3427名四级考生,所选的样本覆盖了全国不同地区不同层次的本科院校,因而是一个容量较大、代表性也比较好的样本数据。在样本数据的基础上,笔者既采用了经典试题分析方法对评价试题质量的主要指标(试题的难易度和区分度、试卷的内部相关等)进行考察,另外还运用了项目反应理论中的Rasch模型对试题的质量作进一步分析。

　　3.1试卷总体难度与各部分难度

　　四、六级考试报道成绩时对原始分要进行等值处理,所以理论上试卷平均难度的高低对考生能力的测量不会产生影响,但难度过高或过低对教学的后效都较差,因而需要将试卷的难度控制在合理的范围内。就大规模标准化考试而言,整卷的平均难度在0.6左右是合适的(杨惠中、Weir 1998)。表2是对3427名四级考生所得原始分数的描述统计。其中,翻译和写作作为一个大的部分计算平均难度。

　　从表2各个题型的数据可以看出,四级试卷中传统题型的难度大多在0.6左右,难度比较适中,仅选词填空题略难(0.51),仔细阅读题略易(0.72)。从三个新题型的难度来看,段落翻译题的平均难度为0.59,难度适中;单词和词组听写题偏难(0.44),同时也是整个试卷最难的部分,但从历年考试数据来看,学生作答听写题的表现一直相对较弱,平均得分率不到50%,因此调整后的听写题就其整体难度而言与以往大致相当,属正常水平;长篇阅读题难度较低(0.80),但由于其他两个阅读题的难度相对较高,因而整个阅读理解部分的平均难度在合理范围内。

　　从试卷各个大的部分来看,听力理解部分的总体难度(0.58)与翻译和写作部分的总体难度(0.59)基本相当,难度适中。而阅读理解部分的整体难度为0.71,相对略易。因此,整份试卷的平均难度为0.63,表明四级试卷的难度是适中的。另外,数据还显示总分标准差较大,说明考生能力分布的离散程度较大,试卷能够很好地将考生能力区分开来。

　　3.2试题项目分析

　　除了试卷的总体难度以外,试题项目分析也是考试质量评估的一个重要方面,即根据样本计算每道试题的难易度和区分度。试题的难易度和区分度是衡量试题质量的两个重要指标。对于大规模语言考试而言,一般要求试题的难易度在0.3~0.7之间,区分度在0.2以上(杨惠中、Weir 1998)。表3为四级试卷中全部客观题的难易度和区分度的双向汇总表:

　　所有55道客观题中,1~25题为听力题,36~65题为阅读题。从各题数据可以看出,难易度在0.3~0.7之间的题目共29题,高于0.7的有24题,低于0.3的有2题,因而整卷全部客观题的平均难度为0.68。另外,就试题的区分度来看,在所有客观题中,仅有1题的区分度在0.2以下,说明四级题目有着很好的区分度,能将不同水平的考生区分开来。

　　3.3试卷的内部相关性

　　根据Alderson等人(1995)的观点,对考试的各个组成部分进行相关分析可以提供考试构念效度方面的证据。一般来说,如果某两部分之间的相关系数太高,说明两者考核的是相同的能力,在考试设计上存在不必要的重复;如果两部分之间的相关系数太低,则说明两者考的是完全不同的能力。就语言测试而言,如果各个部分考核的是语言能力的不同侧面,那么它们之间的相关系数应在适中的水平,一般认为在0.3~0.7之间是合适的(杨惠中、Weir 1998)。但Alderson等人同时指出,由于总分是整体语言能力的体现,因此各组成部分与总分的相关应相对较高,以0.7左右或更高水平为佳。以下是对四级试卷所作的内部相关分析的结果。

　　3.3.1各题型之间的相关

　　笔者首先分析了四级试卷各题型之间的相关以及各题型与总分的相关。表4是四级试卷各题型的相关系数矩阵。

　　就各题型之间的相关来看,表4中的数据显示听力篇章(LC3)与短文听写(LC4)、长篇阅读(RD2)与仔细阅读(RD3)的相关最高,相关系数达到了0.63。听力篇章与短文听写同属听力理解部分,考核的均为听力方面的技能,仔细阅读与长篇阅读同属阅读理解部分,考核与阅读相关的能力,所以相关程度较高是合理的。另外,短文听写(LC4)与选词填空(RD1)的相关达到了0.63,虽然两者分别属于听力题型和阅读题型,但实际上两者都在很大程度上考核了词汇的理解和运用能力,因此两者之间有较高的相关也是可以理解的。听力长对话(LC2)与写作(WT)的相关最低,但也达到了0.42。其他相关系数大多在0.4~0.6之间,呈中等程度相关,说明各题型既具有一定的独立性,又存在相互联系,试卷设计得比较合理。

　　从表4还可以看出,各题型与总分的相关系数大多都在0.7以上,值得一提的是,仅占整卷5%的选词填空题(RD1)与总分的相关也达到了0.78。在各个题型中,仔细阅读(RD3)与总分的相关最高,相关系数达到了0.83。由于仔细阅读部分所占分值比例最高,占到整卷的20%,所以此部分与总分的相关最高是可以理解的。另外,短文听写(LC4)与总分的相关也达到了0.8。短文听写要求学生既能听懂内容,还能正确书写,是对领会能力和表达能力的综合考核,能较好地反映出学生的整体语言水平,因此与总分相关较高也是可以理解的。与总分相关最低的是听力长对话(LC2),但相关系数也达到了0.69,且此部分仅占整卷的7%,因此,与总分达到这样的相关程度也是比较理想的。

　　以上是对各题型相关数据的总体描述,下面将着重分析三个新题型的相关数据:单词及词组听写(LC4)与其他各题型之间的相关在0.52~0.63之间,长篇阅读(RD2)与其他题型的相关在0.47~0.63之间,段落翻译(TR)与其他题型的相关在0.44~0.57之间,说明这三个新题型与其他各题型之间呈中度相关;另外,三个新题型与总分的相关都很高,长篇阅读和翻译与总分的相关均达到了0.75,听写与总分的相关则更高,达到了0.8。各项数据表明,三个新题型的设计均比较合理,符合测试意图。

　　3.3.2各部分之间的相关

　　笔者进一步分析了四级试卷各个部分之间的相关以及各部分与总分的相关。表5是四级试卷各部分的相关系数矩阵,其中翻译和写作仍作为一个整体进行分析。

　　从表5的数据来看,在试卷各个部分中,听力(LC)和阅读(RD)的相关最高,相关系数为0.72,其他各部分之间的相关系数均为0.67。虽然各部分的相关系数在0.7左右,处于较高水平,但仍在合理范围之内,表明试卷各部分既考核了语言能力的不同方面,同时又是相互关联的,各个部分的综合能够准确而有效地反映学生的总体语言水平。另外,各部分与总分之间的相关都很高,其中听力部分和阅读部分与总分的相关均高达0.91,而翻译和写作部分与总分的相关也达到了0.8以上。

　　3.4Rasch模型分析

　　Rasch模型是一种单参数项目反应理论模型,因其克服了传统测量理论的局限之处,实现了测量的客观等距目标,为社会科学领域内的测量建立了一套客观标准,现已广泛应用于教育、心理学、医学等诸多领域。近年来,Rasch模型也越来越多地应用于语言测试领域,国内外有不少学者运用Rasch模型对测试的信效度进行了研究。本文尝试使用Rasch模型从另一个视角对试题的质量进行了分析。笔者采用Rasch分析软件FACETS 3.58对3427名四级考生除翻译和作文之外的全部客观题(即听力部分和阅读部分)的作答结果进行了分析。听写题尽管采用的是主观评分,但采用的计分方式与客观题相同,即只有正确和错误两种作答结果,满足Rasch模型分析的基本要求,因此对听写题的数据也进行了Rasch分析。以下是对考试整体情况的分析结果。

　　3.4.1试题难度与考生能力的对应关系

　　Rasch模型将试题难度和考生能力都转化为以logit为单位的统一度量值,并将两者在共同的标尺上进行度量,因而可以直接比较考生与考生、考生与试题、试题与试题的差异。图1直观地展现了试题难度与考生能力之间的对应关系。

　　图1左边一列是logit量尺,是后面两列参照的共同标准。中间一列呈现的是考生能力的分布情况,每个*代表35名考生,每个圆点表示不足35名考生,考生能力从下往上依次递增。右边一列呈现的是65道试题难度水平的分布,题目难度自下而上依次增加。听力题的编号为1~35,阅读题的编号为36~65,其中26~35题为采用0/1计分的听写题,其余全部为客观题。考生间的距离代表考生能力水平的差异,试题间的距离代表试题难度水平的差异。考生水平分布越分散,说明考生水平差距越大,题目对考生的区分能力强;反之,分布较集中,说明考生水平差距不明显,题目的区分能力弱。另外,理想的试题分布状况是题目能够覆盖所有水平的考生,而且在考生水平分布相对密集处,题目数量相应较多;试题难度水平与考生能力水平越接近,对考生能力水平的估计越精确。

　　图1试题难度与考生能力对应图从图1可以看出,考生能力基本呈正态分布,且分布较分散。试题的难度覆盖了绝大多数考生的语言能力水平,分布比较均匀,考生的水平与试题分布基本匹配,说明试卷可以对考生的能力水平做出比较精确的估计。同时,图1也清晰地呈现了试题难度的顺序,其中52题最简单,34题最难。从图1可以看出,仅有1题与其他试题相距较远,此题为34题,是一道单词/词组听写题,在65道试题中难度最高,与其他题目的难度水平差异较大。绝大多数试题集中分布在±2个logit范围内,总体上试题的难度分布是合理的。

　　3.4.2试题分析结果

　　Rasch模型对试题的难度和考生的能力进行估计后,对每个考生在每道试题上答对的理论概率进行估算,并与实际的观测分数进行比较,用两者之间的差异来评估数据与模型的拟合情况。图2是65道试题的拟合分析结果,按照试题难度的度量值由高到低排列。

　　Rasch模型通常报告Infit MnSq和Outfit MnSq两个拟合统计量,前者是加权均方拟合统计量,后者是未加权均方拟合统计量。由于后者更容易受到个体差异大的数据的影响,因此一般以前者作为判断个体是否拟合模型的依据。拟合统计量的值为１,表示数据与模型预测完全符合。对于Infit MnSq的取值范围没有严格规定,鉴于此处分析的大多为选择题,因而采用较严格的拟合控制,Infit MnSq值在0.7~1.3之间认为数据与模型拟合较好。若试题的Infit MnSq值大于1.3,视为非拟合题目,表明考生的作答方式与模型设定的不一致;小于0.7,则视为过度拟合题目,表明考生的作答结果差异较小或题目不能区分考生之间水平的差异。Rasch标准误表示试题测量考生能力的误差大小,误差越小表示对考生能力的估计越精确,题目的信度越高,一般认为0.03~0.05是可接受的范围。相关系数表示试题与其测量目标的拟合程度,相关系数越高,说明题目与其测量目标越接近。

　　图2的数据显示,Infit MnSq值基本都在可接受范围内,而且大多数非常接近于期望值1,仅1题(即听力部分的14题)的Infit MnSq值为1.31,略大于1.3,处于非拟合的边缘。因此,试题数据总体而言与Rasch模型拟合较好。绝大多数试题的Rasch标准误都在可接受的水平,仅最难的34题和最简单的52题两道试题相应的Rasch标准误略大于其他题目,因而整体来看误差较小,说明试题对考生能力的估计比较准确,试题的信度较高。相关系数都处于可接受水平,表明所有题目与测量目标之间有较好的一致性。

　　除此之外,图2最下方的分隔系数(Separation)和分隔信度(Reliability)用以衡量个体之间存在差异的程度,数值越大说明越有把握认为个体之间存在明显差异。信度的取值范围为0~1,越接近于1表明差异越大。卡方检验旨在检验个体之间是否具有统计学意义上的显著差异。图2的数据显示,分隔系数为24.33,信度达到了1.00,卡方值为33023.2(d.f.=64),显著性为0.00,这些都表明各题目之间的难度有显著意义的区别,符合试卷设计的要求。

　　3.4.3考生能力分析结果

　　鉴于考生人数较多,这里仅报告整体的考生能力情况,不再一一罗列个体的数据。表6显示了考生整体情况的分析结果。

　　从表6中总结的考生拟合数据的取值范围及其所占考生的百分比来看,仅1.2%的考生的Infit MnSq值略超出可接受范围,一般来说非拟合考生的比例应控制在2%左右,因而考生的答题行为整体上符合Rasch模型的预期。这里的分隔系数为3.42,分隔信度为0.92,表明考生能力具有很大差异。这种差异是否显著可以通过卡方检验进行验证。卡方值为37149.0(d.f.=3426),显著性为0.00,结果显示考生能力的差异具有统计上的显著意义,表明试题具有较好的区分度,能够区分出不同考生的能力。

除了了解考试的整体情况以外,笔者也对听力部分和阅读部分分别作了Rasch分析,受篇幅所限不再细述,总体而言每个部分的试题质量都比较理想,试题难度与考生能力匹配得较好,试题能够准确地反映考生的水平,符合考试的质量要求。

　　4. 结语

　　为了验证调整后四级考试的效度,本文以3427名抽样考生的答题数据为基础,对四级试题的质量进行了初步分析。本文首先采用传统试题分析方法考察了试题难易度、区分度以及试卷内部相关等衡量试题质量的主要指标。从初步的数据分析结果来看,题型调整后的四级试卷总体难度适中,除了各个传统题型的难度总体保持稳定以外,单词及词组听写、长篇阅读和段落翻译这三个新题型的难度也处在比较合理的水平。尤其值得一提的是,段落翻译题属主观性试题,且占到了整卷的15%,而数据显示其平均得分率达到了60%左右,表明考试设计者在命题过程中对此部分难度进行了较好的控制。从四级学生的答题情况来看,学生对各个新题型总体比较适应,在新题型上的表现整体比较理想。但是,在测试一定程度表达能力的听写题上,学生的表现仍差强人意,平均得分率仍然不到50%。另外,根据对试卷中全部客观题所做的试题项目分析结果,四级试题的难易度和区分度分布总体符合考试质量要求。对试卷所作的内部相关分析的结果显示,各题型之间呈中等程度相关,说明各题型既互相独立又存在关联,整份试卷设计得比较合理。同时,各题型与总分之间大多呈现高相关,达到了比较理想的相关水平。从新题型的相关数据来看,三个新题型与其他题型之间的相关总体上比较适中,三个新题型与总分的相关也比较理想,表明新题型设计合理,基本符合考试设计者的意图。

此外,本文还对试卷中的全部客观题及采用0/1计分的听写题进行了Rasch分析。结果显示,试题的难度水平总体上与考生的能力水平相匹配,试题覆盖了绝大多数考生的能力水平,能够对考生的能力做出比较准确的估计。同时,绝大多数试题集中分布在±2个logit范围内,试题难度的分布是比较合理的。就试题数据和考生能力数据与Rasch模型的拟合分析结果来看,加权均方拟合统计量的取值绝大多数都在可接受的范围内,表明数据与模型的拟合比较理想。各个题目的Rasch标准误和相关系数也都在可接受的水平,表明试题对考生的能力水平进行估计时误差较小,试题能够较好地测量出所要测量的目标。此外,数据还显示试题具有良好的区分度,能够将不同考生的能力区分开来。Rasch分析结果进一步表明四级试题的难易度和区分度分布比较理想,试题质量符合考试的要求。

　　此外,教师、学生及媒体对此次考试题型调整也普遍反映良好。从考试委员会对部分教师进行的考后访谈结果来看,教师对题型调整给予了充分的肯定,认为调整后的考试更综合地测试学生的英语应用能力。教师们还一致认为翻译题的调整是此次题型调整的最大亮点:首先,调整后采用的段落翻译题型可以更有效地测试学生的翻译技能,能够对翻译教学产生良好的后效;其次,翻译题融入的中国元素有助于增加学生对中国的历史、文化、经济和社会发展等各方面的了解,从而提高学生的跨文化交际能力。对部分考生进行的考后访谈结果显示,考生总体上也持肯定态度。不少考生指出调整后的翻译题更具真实性,对学生的能力提出了更高的要求,但同时也能更好地反映出学生的语言综合运用能力。国内有不少主流媒体也关注了此次的题型调整,并给予了正面报道。如有报道指出,多项选择题的减少和主观性试题的进一步增加使考试能够更好地测试大学生的英语实际应用能力,从而引导师生更加重视语言实际运用能力的培养。

　　对考试数据进行科学地分析和评价是考试质量评估的重要组成部分,数据分析和评价的结果可以为

设计者提供考试质量方面的重要信息,为进一步改进考试提供重要依据。本文通过对考试数据的分析对此次题型调整后的四级考试作了初步的质量评估,从而初步论证了调整后四级考试的效度。然而,考试分数只是开展效度研究过程中所需收集证据的其中一个方面,今后还需要不断收集其他各方面证据,以更全面地论证考试的效度,从而及时地发现考试可能在某方面存在的局限,不断地改进和完善考试,更好地为教学服务。

编者注：本文节选自《当代外语研究》2015年第10期。