国外语言测试研究热点综述(2011

admin 管理员组

文章数量: 1184232

2024年4月12日发(作者：selected概念系列)

外语测试与教学

2018年第2期

ForeignLanguageTestingandTeaching

Apr2018

[中图分类号]H319摇摇[文献标识码]A摇摇[文章编号]2095-1167(2018)02-0001-14

国外语言测试研究热点综述

(2011—2015年)

周珊珊

提要:本文对2011—2015年刊登在《语言测试》和《语言测评季刊》两本语言测试领域权威期刊上的全部研

究论文从研究方法、研究对象、研究问题三个层面进行了质性研究。研究发现:定性研究和混合研究有增加的

趋势;以英语为外语(EFL)或二语(ESL)的测试仍然是研究的主要对象,实证研究主要以成人学习者为研究

对象;值得关注的四个研究热点是评分员的评分行为、综合测试、诊断性评估和课堂评估。语言测试研究正从

学习评价向促学评价转变;语言测试的社会属性得到越来越多的关注。研究结果有助于国内研究者了解国际

研究热点和趋势,走在学术前沿。

关键词:语言测试;文献研究;研究热点;趋势

Abstract:Inordertogainaninsightintothestate鄄of鄄the鄄artofinternationallanguagetestingresearch,thispaperre鄄

views

Language

allthe

subjects

Assessment

research

Quarterly

articlespublished

.Thearticles

from2011

are

to2015intwoleadingjournalsinthefield,LanguageTestingand

ology.

rentresearch

reviewed

indicates

from

that

three

quantitative

aspects,i.

research

e.,research

isstill

methodology,

the

research

ESL

emerging

learners

However,

concerns

arethe

SLtests

dominant

andadult

method鄄

EFLor

are

major

surveyed

research

indetail,

objects.

i.e.

There

,rater

has

behavior,

beenavariety

integrated

ofresearch

test,diagnostic

concernsin

assessment

thepastfive

and

years.

classroom鄄

Four

based

ing.

cialdimension

The

assessment.

practice

oflanguage

The

involving

concerns

tests.

stakeholders

oflanguage

Thispaper

testers

contributes

theresearch

arechanging

fromassessmentoflearningtoassessmentforlearn鄄

language

betterunderstanding

testingindicates

ofthe

agrowing

status鄄quo

concern

ofinternational

fortheso鄄

language

Keywords

testing

:language

research.

testing;literaturereview;emergingconcerns;trends

1.引言

国外语言测试研究一般以Lado于1961年出版的《语言测试》一书为起点,距今已有近60

年历史

Skehan

。

言测试领域研究焦点的演进

1988;

2001

Alderson

年以前对国际语言测试研究进行综述的文章有三篇最具代表性

&Banerjee

,从早期关注交际语言测试的开发

2001,2002,转引自Davies2014:

、语言能力的构念

4)。这三篇文章揭示了语

(Davies1982;

,到20世纪

题、

年代关注统计方法的应用和标准参照测试

标准制定、自我评估等。承接这三篇综述,Davies

,再到20

(2014:13)

世纪末关注测试的反拨效应

分析了2002-2012年十年间

、伦理问

*摇

作者在北京师范大学访学期间由罗少茜教授指导完成本文

部也给出了宝贵的审读意见

摇

,在此一并深表谢意。

,并得到赵海永博士的帮助和建议,《外语测试与教学》编辑

·1·

外语测试与教学摇2018年第2期

的研究状况,列举了新呈现的研究热点,包括国家级测试、测试的社会学和政治学视角、包含测

试使用的效度研究、新的口语测试形式、世界英语等。

相比国外语言测试研究,国内语言测试研究起步相对较晚。对国外研究的综述主要集中

在某一具体方面,如效度和效度验证(李清华2006;韩宝成,罗凯洲2013)、考试策略(胥云,武

尊民2011)、评价素养(林敦来,武尊民2014)、伦理问题(梅昳,聂建中2009)、作文自动评分

系统(梁茂成,文秋芳2007)、现代技术与语言测试(田文燕2006;刘建达2013)等。郑宇静,

辜向东(2015)通过定性研究《语言测评季刊》(LanguageAssessmentQuarterly)中刊登的10位

名人访谈笔录,从语言能力标准的制定、语言测试的研发、语言测试的使用和社会影响三个方

面探讨了国外语言测试研究的特点和发展趋势。但是,仅以10位名人访谈为数据不足以描绘

近年国外语言测试研究的全貌,宏观概述无法提供清晰的指引。总体而言,对国外最新研究现

状进行具体综述的文献远远不足。

2.研究方法和研究问题

本文将从研究方法、研究对象、研究问题三个层面梳理2011-2015年国外语言测试的研

究论文,旨在了解国际语言测试的最新研究现状,为国内语言测试研究提供参考。论文是《语

言测试》(LanguageTesting)和《语言测评季刊》(LanguageAssessmentQuarterly)2011—2015年

刊登的全部研究论文

review)。

,共209篇,不包括书评(bookreview),编者按(editorial)和测试评论(test

议期刊

Banerjee

;二

选择这两本期刊有两个原因

、著作具有滞后性,相比著作

:一

,期刊论文

、这两本期刊是国际语言测试领域最重要的同行评

“更能反映最新的研究成果冶(

本文的具体研究问题是

2001:213)。

Alderson&

:(1)这五年国际语言测试的研究方法、研究对象有何特点?(2)

这五年国际语言测试研究的热点话题是什么?(3)这五年国际语言测试研究的特点和趋势是

什么?

3.国际语言测试研究热点分析

3.1研究方法和研究对象

从研究视角看,209篇研究论文中,理论研究占33篇、实证研究175篇、4篇为结合理论与

实证的研究。这4篇理论与实证结合的研究均以理论为主,首先提出一种新的测试或评分模

2014),

式(Jin

然后进行实证验证

etal.2012;Moere

。

2012)

从研究方法看

或数据统计方法

,175篇实证研究中

(Barkaoui2013;

,使用定量研究方法的占

Chen&Chalhoub鄄Deville

篇,使用定性研究方法的21篇,使用定量、定性相结合的混合研究方法的54篇。虽然从数据

100

看,定量研究方法仍然是国际语言测试研究的主流,但是定性研究和混合研究有增长的趋势。

而在《语言测评季刊》上,使用定性和混合研究方法的总数与使用定量研究方法的总数相当。

这一趋势也回应了《语言测评季刊》2004年创刊时主编Cumming的呼吁,他呼吁语言测试研

究者使用多样的研究方法,扩大研究范围(Cumming2004:9)。

从研究对象看,以英语为外语(EFL)或二语(ESL)的测试仍然是研究的主要对象,仅有17

篇文章研究的是其它语言为外语或二语的测试。实证研究主要在大学开展,以成人学习者为

研究对象。笔者认为以成人学习者为主要研究对象的首要原因是从事语言测试研究的人员集

中在高等院校,因此以大学生为研究对象比较方便;其次是目前的标准化测试主要面向成人学

·2·

国外语言测试研究热点综述(2011—2015年)

习者,而标准化语言测试仍然是一个重要的研究领域。以基础教育阶段学生(K鄄12)为研究对

象的有35篇,其中4篇关注学前儿童。对青少年学习者(younglearners)的语言测试研究始于

者有近一半来自于韩国

世纪60年代,在90年代明显增加

、芬兰、荷兰、中国香港

。从35篇文章作者的隶属机构看

、中国台湾等母语非英语国家和地区

,青少年学习者的研究

。在这些地

方

derson

,英语被纳入基础教育体系

&Banerjee(2001)也认为二语教学

,为研究面向青少年学习者的语言测试提供了丰富的数据

(特别是英语)被越来越多地纳入主流教育体系促

。Al鄄

进了对青少年语言测试研究的增加

3.2研究热点问题

。

对175篇实证研究的研究问题分析发现,五年间语言测试的研究角度多样。虽有涌现新

的研究热点,但大部分仍然是语言测试界长期关注的问题,诸如效度、效度验证、语言能力(听

力、口语、阅读、写作)的构念等一直是研究的焦点,一方面因为这些问题对语言测试的理论和

实践至关重要,理应是研究热点(Davies2014:16);另一方面也反映了语言测试在半个世纪的

发展中专业化进程的加深和问责机制的巩固,语言测试者一直致力于确保测试达到测试的目

的。具体研究问题的统计如表1所示。

表1摇研究问题归类

序号研究问题频次

(1)

(2)

效度和效度验证(validityandvalidation)25

(3)

评分员的评分行为

口语评价

(raterbehavior)18

(4)

(5)

测试开发

(assess

(testdevelopment)

speaking)19

(6)

听力评价

(7)

综合测试

(assess

评价素养

(integrated

listening)

(assessment

test)

(8)(diagnostic

literacy)10

测试的使用

诊断性评估

(testuse)

assessment)9

(10)

(9)

课堂评估

(11)写作评价

(12)

(13)

词汇和语法评价

(assess

(classroom鄄basedassessment)

(14)

反拨和影响

(assess

writing)

vocabularyandgrammar)6

(15)

语音评价

(washbackandimpact)6

(16)

阅读评价

(assessspeech)6

(17)

利益相关者的参与

(assessreading)6

(18)

标准制订

(19)

信度

(standard鄄setting)

(involvestakeholders)

(20)

测试与二语习得

(reliability)3

语用评价(assess

(SLA)

pragmatics)

·3·

外语测试与教学摇2018年第2期

读和写作评价等诸多测试界长期关注的问题

Alderson&Banerjee(2002)和Davies(2014)

;林敦来

详细回顾了效度和效度验证

,武尊民(2014)综述了国外有关评价素

、听力、口语、阅

养的最新进展。下文将重点讨论前人综述中未提及而五年间获得较多关注的四个研究热点,

即评分员的评分行为、综合测试、诊断性评估和课堂评估。下文将以两本期刊中的论文为主,

重点回顾这四个研究热点的具体研究问题,并在每一个问题上结合重要文献进行对比和展望,

旨在为国内语言测试研究提供启示

评分员在口语和写作评价中具有重要地位

2.1评分员的评分行为

。

。评分员因自身经验、背景和认知等原因可能

在评分过程中引入与测试构念无关的因素

“

,从而影响测试的效度

评分员至少在四个方面存在差异

无论测试开发得多么有效都将毫无意义

son(2002)在综述写作评价的发展时回顾了以写作评分员为研究对象的实证研

:一致性、

冶

严苛度

(Shaw

、

对评分量表的使用

Weir2007:143)。

。而如果不能保证评分标准

、

McNamara

评分员的偏见

(1996)

。Alder鄄

指出

究,包括新手和老手评分员

&Banerjee

、专家和外行评分员、母语和非母语评分员评分行为的差异。

2011;

五年间,对评分员的实证研究明显增加,研究对象也进一步扩大,既包括写作评分员(Lim

究的范围包括评分结果

Eckes2012),也包括口语评分员

、评分过程、评分策略

(Zhang

、评分的发展变化等

&Elder2011;Carey

。

归纳来看

al.2011;

,五年间对评分员

Cai2015)。研

的研究主要分为以下三类

评分员的个人背景是影响评分行为的一个重要因素

2.1.1评分员的个人背景对评分的影响

。个人背景包括语言背景和非语言背

景。

为汉语的评分员在评价

Zhang&Elder(2011)

30名中国考生的口语样本上的差异

采用混合研究方法比较了19名母语为英语的评分员与

。结果显示两组评分员在总体评

20名母语

分上并无显著差异,但两组评分员对口语能力构念的理解不同,母语为英语的评分员在评分时

考虑的因素要多于母语为汉语的评分员。Gui(2012)通过比较3名母语为英语与3名母语

为汉语的评分员对演讲比赛的评分,得出了相似的研究结果,即两组评分员的评分在分值上无

显著差异,但母语为英语的评分员能够给出更具体的评论。Wei&Llosa(2015)比较了3名

英语为母语的评分员与3名英语非母语的印度评分员的口语评分,结果仍然是两组评分员在

评分

(2011)

、一致性

与Wei

、严苛度以及对印式英语的态度上没有显著差异

&Llosa(2015)均采用整体评分法,Gui(2012)

。

采用分项评分法

评分方法上,Zhang

。他们的研究

&Elder

表明,无论是采用整体评分法还是分项评分法,评分员的母语或非母语背景均不会影响评分。

除了母语背景,评分员的语言背景还包括评分员自身的二语学习体验,评分员对考生口音

的接触范围和程度。Careyetal.(2011)的研究对象是来自不同国家雅思考试中心的99名评

分员。Careyetal.比较了他们对3名分别来自中国、韩国和印度的考生的语音评分。结果表

明评分员对考生的中介语越熟悉,越容易给该考生打高分。Winkeetal.(2013)将研究对象

扩大到107名评分员,口语样本来自72名学生,结果发现评分员自身的二语学习背景会影响

评分,

景包括评分员的母语

Kang

学习过西班牙语和汉语的评分员对一语是西班牙语和汉语的考生打分更宽松

(2012)将评分员的个人背景视为整体进行研究

。

、在语言学习和教学方面的经验以及与英语为非母语学习者的接触程度

。研究对象是新手评分员,个人背

。

研究发现评分员的个人背景能够解释7%-9%的口语评分差异。

·4·

国外语言测试研究热点综述(2011—2015年)

评分员的评分实际上是评分员的一个决策制定过程

2.1.2评分员的认知(ratercognition)

,会受到多重因素影响,其中之一是评

分员的个人认知,比如,对某一方面(如句法问题)特别严苛会带来评分的差异。从20世纪

al.

年代开始就已经有学者对此展开了研究

2002;

Harding

Eckes

etal.

2008)。

(2011)

五年间两本期刊中

(Cumming

用质性方法研究了

,有以下

3名评分员的评分过程

1990;

篇继续在这一方面进行了研究

Milanovicetal.1996;Cumming

,研究对象是澳大利亚的

。

职业资格考试OET听力测试中的记笔记一项。研究者在评分员打分后对其进行了焦点团体

座谈,并对座谈内容进行了质性分析。研究揭示了评分员在打分时会做哪些决定,以及所做决

定基于的原则,其中之一是评分员的“知识和信念(knowledgeandbeliefs),本质上即评分员的

认知,

sion鄄making

Baker

包括个体评分员与评分有关的一切理解

(2012)采用探索性的混合研究方法试图寻找能够描绘评分员决策制定风格

、知识和信念冶。

(deci鄄

频次,以及评分过程中的思维等数据

style,DMS)的数据。除了问卷调查

,并对这些数据与决策风格的相关性进行了讨论

,Baker收集了评分员延迟打分和低分高打的

。Baker

还发现决策制定风格与写作文本也有关系。虽然Baker没有建立起这些数据与决策制定风格

之间的相关模型,也未揭示决策制定风格对评分具体有多大程度的影响,但研究表明了评分员

差异研究中

(2012)

Eckes(2012)

,评分员的社会认知差异是不容忽视的因素

和Cai(2015)将评分员的认知与评分员的实际评分行为联系起来

。

。Eckes

类基于评分员对标准的不同看法

发现认知类型不同的评分员在实际评分结果上也有明显区别

,比如认为语法比流利更重要的评分员在语法的评分上倾向

。Eckes对评分员的分

于严苛,在流利的评分上倾向于宽松。Cai(2015)根据评分员的实际打分将评分员分为三种

类型,注重形式型、注重内容型和平衡型。这三种类型的划分与评分员的自我认知和实际打分

相吻合,如注重语言形式的评分员倾向于忽视内容上偏题的问题。两者的不同在于,Eckes以

写作评分员为研究对象,Cai以口语评分员为研究对象。二者的共同之处是把评分员的认知

与实际评分联系起来,他们的研究都证明评分员的认知会体现在评分上,因此在培训评分员时

应该使评分员意识到个人倾向,并避免将个人的认知倾向引入实际评分,从而带来测试构念的

不均衡表达

正因为评分员存在个体认知和背景的差异

2.1.3

降低测试的效度

评分行为的发展

。

,为了保证评分效度,对评分员进行培训是必不

可少的环节

Elderet

,而研究评分行为的变化则关乎培训是否有效

al.(2005)的研究表明对反馈持积极态度的评分员能够利用反馈改善评分行为

、有效期多长等问题。

O蒺Sullivan&Rignall(2007)的研究结果则不同,即使评分员对反馈持积极态度

。

反馈也无法减少评分员之间的差异。这些研究采用一次性实验设计,只涉及口语或写作其中

,提供个性化的

一类评分员。Knoch(2011)的创新之处在于用历时研究方法观察了10名写作评分员和9名

口语评分员在得到个性化反馈后的评分变化,其研究结果表明,虽然评分员普遍认可个性化反

馈的意义

指标

Lim

。结果发现尽管起初部分新手评分员的评分质量不佳

(2011)

,但无论是写作还是口语评分员

历时研究了新手评分员评分质量的发展轨迹

,并没有改善其自身评分行为

,但能很快调整到与老手评分员一

,评分质量以一致性和严苛度为

。

样的水平

KimH

;在该研究跨越的时间段里

J(2015)的研究结果与Lim

,新手评分员能够维持评分质量

不同,他历时研究了新手(novice)、

;评分质量与评阅量有关

成长型(developing)

。

·5·

外语测试与教学摇2018年第2期

和老手(experienced)评分员在经过两次培训后的三次评分变化,结果显示老手评分员能一直

保持稳定的质量,而新手评分员在经过两次培训后仍存在问题,成长型评分员则从培训中获益

最大。Kim的研究结果表明常规的评分员培训应按照评分经验分组培训,而不宜将所有的评

分员放在一起。

总之,五年间对评分员的研究角度更趋多样化,研究问题也更为具体。对评分员的研究热

度显示了语言测试界日益认识到评分员这一变量的复杂性,也认识到评分员对于测试效度的

意义。如何通过有效的培训减少评分员个人因素带来的评分差异将是未来关注和努力的方

向。

(2013b)

2综合测试

以上宏观语言技能的测试

将近几年获得热点关注的综合测试

,如听后说、读后写、听后写、

(

听读后写等测试

integratedtest)定义为综合两种及两种

,以区别于早期与分离

式测试相对立的综合性测试(integrativeassessment),如完形填空。综合测试近年来得到越来

越多学者的关注,一是因为综合测试模拟了真实的语言使用环境,真实性较高。比如不少大学

课程要求学生能在阅读后根据材料写作或展开讨论,学生需要知道如何恰当地使用原材料。

因此,对于面向准大学生的语言测试,如TOEFL,理所应当地需要回应这样的学业要求。传统

测试将语言分割为听说读写,忽视了语言在实际使用中的综合性本质。二是因为语言测试的

题型已经固化多年,传统的测试项目从开发到效度验证已经被大量研究。综合测试作为一种

新颖的形式

篇有关综合测试的文章

,还有许多未知

。

从研究问题看

因此近年来引发了学界的研究兴趣

,10篇文章用不同的方法多角度探讨了

。五年间两本期刊共刊登了

个问题

“什么冶这

试的效度

Frost

,即综合测试的构念是什么

。

Frost

al.(2012)

etal.(2012)

和Crossley

,以及现有综合测试的效度

的研究对象是牛津英语测试中一项先听后口头复述的测试

etal.(2014)都采用了语篇分析的方法研究了听说综合测

。

,研

究者分析了复述文本的内容特征,如包含原材料关键信息点的数量及对原材料理解的准确度,

并与考生的口语成绩进行对比,结果发现复述的内容与考生的口语水平密切相关,水平越高的

考生复述的信息点越多,越准确。这项研究验证了“听后复述冶综合测试以及内容评分量表的

效度。Crossleyetal.(2014)的研究对象是TOEFL鄄iBT的听说综合测试。基于60名考生的

语料库,研究者分析了听力原材料的词汇特征与考生对原材料的引用和口语评分的关系。结

果显示听力原材料的词汇特征能够预测考生对原材料的引用,如在原文中重复次数越多的词

汇被考生引用得越多,引用原文词汇越多的考生得到的口语评分越高。这项研究对标准化语

言测试的开发具有重要启示,比如确定听力文本中词汇的重复程度,重复次数太多或太少都会

影响对口语能力的正确评估,从而影响效度。

上述两项研究一个从产出入手,一个从输入入手,研究输入或产出特征与口语评分,即口

语语言能力的关系,从而探讨测试是否具有构念效度。这种研究角度也是大多数综合测试的

研究角度。Choetal.(2013)研究了TOEFL鄄iBT听读写综合测试中听力输入和阅读输入的特

征与写作分数之间的关系,其中听力和阅读输入特征指其难易程度,通过问卷调查的方式获

得。结论是听力主题内容的清晰程度(distinctivenessofideas)和阅读文本主题内容的难易程

度(difficultyofideas)对写作分数的影响最大。Cubilo&Winke(2013)对比了两种输入模态

对写作的影响,一种是视听输入,另一种是单一的听力输入,结果显示两种模态并不会引起写

作质量的显著差别。Gebril&Plakans(2013)和Yu(2013a)则分析了写作产出的特征,以此

·6·

国外语言测试研究热点综述(2011—2015年)

推断哪些特征能够区分不同水平的考生

Wolfersberger(2013)用民族志的研究方法通过访谈和观察记录了四名中国留学生一次课

。

内综合写作任务的完成过程。Wolfersberger发现,不同于测试环境,课堂环境是一个师生共同

建构而且不断发展变化的社会环境。学生对任务的理解受多重因素影响,如教师反馈、同伴建

议、教师提供的范文等,而对任务的不同理解直接导致了写作分数的差异。因此作者提出应区

分测试环境下与课堂环境下综合写作测试的效度。Wolfersberger研究的不同之处在于:(1)以

课堂测试为研究对象,(2)完全用质性方法进行写作任务完成过程的个案研究,揭示了写作是

考生不断自我修正的动态过程。

上述研究主要探讨的是综合测试的构念和效度问题,即综合测试测的是什么,而除了“什

么冶之外,“怎么样冶和“为什么冶这些基本问题也亟待解决(Yu2013b:112)。目前综合测试研

究尚无清晰的理论框架

(2013)

。综合测试具有显而易见

难以区分考生的语言和原材料的语言

指出,综合测试的构念和评分标准需要更清晰的定义

的优势,同时也存在局限性。Cumming

;语言能力叠加使分数的解释复杂化

;综合测试的评分难度大

,如在读写综合测试

,评分员

中,阅读能力直接影响写作,考生可能需要达到一个语言和认知的门槛才可以参加综合测试。

因此,

有效使用综合测试

虽然语言测试学者早就提出广泛使用的水平测试分数对改进教学的意义甚微

2.3诊断性评估

,除理论建构外,还需要更广泛的实证研究支持。

(Alderson

etal.1995),测试的利益相关者需要关于学习者长处和不足的具体信息,以便管理者能够据

此改进或设计新课程,课堂教师能够有针对性地开展教学(Lee&Sawaki2009)。诊断性评估

能够充当评估和学习之间的接口,评估提供的有意义的反馈能起到融合课程与教学的作用,从

而达到促进学习者发展的最终目的(Alderson2007;Kunnan&Jang2009)。虽然诊断性评估在

其它行业已经被广泛应用多年,但在二语教学上的研究还很不足,已有的研究主要集中在二语

写作的反馈研究上

(corrective

。Jang&Wagner(2014)指出,

最终的写作文本为研究对象

feedback),而其它类型的反馈研究不足

,忽略了学习者对反馈的认知加工过程

。

过去有关反馈的研究集中在纠错型反馈

过去的研究常常从结果入手

,忽略了学习者在反馈研究

,即以学习者

中的角色。Jang&Wagner(2014)还认为诊断性评估的重点应放在诊断学习者的能力与目标

能力之间的认知差距

认知诊断评估为研究主题

2015年Language

,即认知诊断评估

Testing

。Kim

刊发了一期诊断性评估专刊

(cognitivediagnostic

AY(2011)研究了EAP

。

assessment,

写作的诊断评估

五年间刊登的

CDA)。

。

篇文章中

研究者开发了一

,两篇以

个诊断清单,含35个描述性指标,包括5项写作子技能。评分员按照诊断清单对学生的写作

进行评估。研究者评估这种诊断方法能否准确区分不同水平的学生,并提出了一种包含诊断

信息的成绩报告方法。Kim(2015)研究阅读的认知诊断评估,先通过专家分析建立一个项目

与认知能力的矩阵模型,然后分析学生的答题情况得出学生总体的认知能力,并对比三个能力

群体(高、中、低)的认知能力分布情况,从而掌握学生的阅读认知能力差异。

上述两项研究探讨如何将已有测试用于诊断性评估。与此相似,Chapelleetal.(2015)

将自动作文评分系统用于诊断测试的效度验证

(Bachman

用于诊断评估的效度

&Palmer2010)

。Doe(2015)以“测试使用论证冶(AUA)

。将已有测试用于诊断评估的局限性在于能获得的诊断信息量受测试题

为框架,通过调查学生对测试反馈的使用来验证将某一高风险测试

目的限制,Alderson(2005)因此指出,理想的诊断性评估应该使用专门为诊断开发的测试。

·7·

外语测试与教学摇2018年第2期

Poehner

etal.

(2015)

al.(2015)

在Vykotsky

和Koizumi

的社会文化理论指导下设计并实施了一项基于计算机的动

etal.(2011)均为诊断测试的开发和效度验证研究。

态评估,用互动的方法提供学生完成任务所需的中介(mediation),通过观察学生在每一道题上

所需的不同中介,诊断学生当前的能力水平,以及学生的最近发展区,用合作学习的方式实现

最近发展区内认知能力的内化。相比粗糙地将学习者划分为“能力掌握者冶和“能力未掌握

者冶,动态评估能够更精细地划分学习者,提供更具个性化的诊断信息,如学生距个体的最近

发展区还有多远。关于动态评估还有很多问题值得研究,例如:测试环境下评估者如何准确地

确定学习者的当前水平?什么样的中介更适合个体学习者?如何有效使用动态评估提供的诊

断信息?

值得关注的是Hardingetal.(2015)的文章,这篇文章在Aldersonetal.(2014)提出的诊

断性评估框架的基础上,提出了诊断性评估的五个原则和四个阶段,并以听力诊断测试的实施

为例证。四个阶段包括:观察、初始判断、假设检验、决策。诊断性评估的范围扩大,观察阶段

除教师观察,还可以是师生共同协商,或者学生自我评估;而假设检验可以利用测试工具,也可

以与专家进行协商诊断;决策既包括个体学生的诊断信息,也包括“治疗(treatment)冶方案,如

后续学习建议、教学大纲修订等。这项研究为课堂教师开展诊断性评估提供了框架,也为研究

者拓宽了思路。诊断性评估的过往研究都是从第三阶段(即寻找有效测试工具)开始,止于诊

断信息的提出,而Harding等人将大纲、课堂教学、评估与治疗统一到一个框架中。如何将诊

断转化成治疗

,以及大纲、教学、评估与治疗的共生关系则是未来值得研究的问题。

课堂评估研究起源于教育界对测试的认识转变

2.4课堂评估

,即从学习评价(assessmentoflearning)到

促学评价(assessmentforlearning)的转变(Black&William1998;Hume&Coll2009)。作为一

种常见的形成性评价手段,课堂评估由任课教师在课堂中开展,时间和方式灵活。课堂评估与

教学密切相关,课堂评估信息可以及时反馈到教学中,达到促进教与学的目的。虽然教育界在

其它学科已开展了大量课堂评估研究(如Brookhart1997;Brookhart&Durkin2003),语言测试

领域也有学者系统地介绍过课堂评估

Leung

(如Rea鄄Dickins&Gardner2000;Harlen&Winter

章以课堂评估为研究主题

2004),但是总体而言

,可分为以下几种类型

,课堂评估研究仍然处于起步阶段

。

。五年间两本期刊共有7

2004;

篇文

第一种类型是常见主题在课堂环境下的研究。Chengetal.(2011)研究了我国香港地区

15%

最新引入的一项校本口语测试的反拨。这项校本测验的成绩占香港中学文凭考试成绩的

能力

。

虽然有终结性评价意义

这项测试由任课教师主导

,但是其根本目的是与课程融合

,一年举行多次,因此也可以被认为是课堂测试

,以考促学,培养学生的自我评价

。研究者通过

问卷调查了解这项测试对考生和家长这两个利益相关群体的影响,结果表明家长对测试的了

解越多

ersberger

,能给考生提供的支持也越多,对考生的影响则因考生的水平而异

试与高风险测试环境不同

(2013)用访谈和观察的方式研究了课堂环境中一项综合测试的效度

。前文提到的Wolf鄄

,测试构念也不同。此前反拨和测试构念研究主要针对大规模高风

,揭示了课堂测

险国家测试或国际测试,而对语言测试理论和实践至关重要的各个方面也同样适用于课堂评

估研究,课堂评估的设计和使用也应当有理据支持。

第二种类型是测试与学习研究。Huang(2010,2012,2015)发表的三篇文章涉及课堂评

估在听、说、写课堂上的应用。Huang(2010)对比了“聚合性评估冶(convergentassessment)和

·8·

国外语言测试研究热点综述(2011—2015年)

“

结论是学生受自我效能的影响对两种测试的反应不同

差异性评估冶(divergentassessment)两种评估方式下学生的策略使用和学习动机的差异性

,自我效能低的学生在差异性评估中的

学习动机强,策略使用多,自我效能高的学生在聚合性评估中的学习动机强,策略使用多。同

时,学生对听和说两种测试的反应亦不相同。Huang(2012)调查了师生是否认为课堂测试能

促进学习动机,质性研究结果显示师生普遍认同测试能激励学习。Huang(2015)用实验方

法,历时研究了当教师提供必要的支架(scaffolding)后,比如作文修改目标,学生的作文终稿和

初稿相比成绩能否提高。Huang的研究揭示了随着“促学评价冶在教育界的普及,当教师从自

上而下的标准化测试中解放出来,被赋予了更大的评价权力后,如何合理科学地设计测试、真

正促进学习成为了教师作为测试者需要认真对待的问题。

第三种类型从真实课堂评估过程入手,研究课堂评估的复杂性。Hill&McNamara(2012)

用民族志的质性研究方法,历时20周,深入课堂观察、录像、收集文件,建立了一个基于真实环

境的课堂评估研究框架。研究框架相比Rea鄄Dickins(2001)更宽泛,包括的数据更多。他们认

为教师做出关于学生表现的一切反馈都属于课堂评估范畴,无论是“计划的或是非计划的,有

意的或是无意的,显性的或是嵌入式的冶(Hill&McNamara2012:397)。研究旨在描述而非评

价真实状态下的课堂评估,研究框架还需要更多的实证检验。Cheng&Sun(2015)以中国初

中和高中英语教师为研究对象,用问卷调查的方法研究影响教师课堂评估的多重因素。结果

显示内部和外部因素均影响教师的评估,内部因素如教师评价素养,外部因素如班级规模、高

风险测试的压力等。研究揭示了社会、文化和教育环境对课堂评估的作用不容小觑,与测试构

念无关的因素,如学生的努力,常常亦会是教师进行课堂评估时考虑的因素,反映了课堂评估

的社会文化属性。

Davison

研究者在认可课堂评估价值的同时,也提出了对其“非理论性冶的质疑(Brookhart2004;

估研究缺乏理论基础

&Leung2009)。

,常常停留在教师个人经验的描述

“非理论性冶表现在课堂评估因教师的个体差异而千差万别

。尽管教育学研究者试图建立课堂评

;课堂评

估研究的理论框架(Brookhart2004),但是鉴于课堂环境的动态性和互动性,课堂评估仍然需

要更多的理论建构

3总体特点和趋势

,语言教学的课堂评估也还需要更多的实证研究支持现有理论。

通过梳理五年间两本国际语言测试领域顶级期刊研究论文的研究方法、研究对象和研究

问题

vies2014),

,并结合2011年之前其他研究者所做的文献综述(Alderson&Banerjee2001,2002;Da鄄

观察五年间的研究发现定性研究和混合研究有增长的趋势

(1)质性研究方法增加

作者发现语言测试领域的研究呈现如下特点和趋势

。虽然定量研究方法仍然是国外语言测试实证研究的主流

。

,单一的量化研究在减少。在应用

,但是

语言学领域,文秋芳,林琳(2016)通过考察TESOLQuarterly期刊2001-2015年发表的265篇

实证研究的研究方法发现,15年间,质性方法超过定量方法的趋势保持不变。其原因是国外

研究者逐步认识到定量方法无法研究处于社会环境中动态的、复杂的人和事。语言测试作为

应用语言学的一个研究领域,也呈现同样的趋势。语言测试研究者对测试与人的互动、测试的

社会性等方面的认识逐步增加。随着研究主题不断丰富,研究方法日趋多样化,个案研究、民

族志研究

结合起来

(2)

、

从学习评价向促学评价转变

语篇分析等质性研究手段被越来越多的研究者所使用

从评估中获得有价值的信息

。

,用在评估后的教与学上

诊断性评估和课堂评估的意义都在于将评估与教学

。

。对诊断性评估和课堂评估的

·9·

外语测试与教学摇2018年第2期

研究热度显示了语言测试界从早期关注如何评价逐渐转向如何利用评价。学习评价关注的是

测试本身的效度,强调如何开发测试、如何有效区分考生,而促学评价关注的是对测试的使用,

强调如何利用测试结果达到促进教与学的最终目的

(1998)为代表的教育学者就大力倡导促学评价,在语言测试界促学评价则是最近几年才获得

。早在20世纪末,以Black&William

研究动势

sessment

,以Turner&Purpura(2016)提出的以学习为导向的评估框架(learning鄄orientedas鄄

者视角考虑在内

framework)

,对促学评价进行了理论建构

和Hill&McNamara(2012)

,可以预见未来将涌现一些基于这两个理论框架

提出的课堂评估框架为代表。两者都将学习

的实证研究

测试的利益相关者涉及一切与考试有关的人员

(3)针对广泛利益相关者的研究增加

。

。任何语言测试都在特定的社会环境中发生

,如测试开发者、教师、学生、家长、用人单位等

,语言

。

2010),

在大多数测试环境中,考生是最重要的利益相关者(Rea鄄Dickens1997;Bachman&Palmer

多的研究者将焦点转向考生

然而过去针对考生的研究却远远不足

,如课堂评估。除此之外

(Chenget

,考生反馈也开始被纳入大规模测试的设

al.2011)。可喜的是,在五年间越来越

计(Ockeyetal.2013;Kim&Elder2015)和评估(Chengetal.2011;Vongpumivitch2012)中。

还有研究以教师和家长为研究对象(Chengetal.2011;East2015),将广泛的利益相关者纳入

研究范围,显示了语言测试的社会性日益得到研究者的认可和关注,同时显示了语言测试界对

确保考试公平性和使用合理性所做出的努力。

4.结论

为了解国际语言测试领域近年关注的热点和趋势,本文以两本权威学术期刊2011—2015

年刊登的全部研究论文为研究对象,从研究方法、研究对象、研究问题三个层面进行了归类研

究。研究发现,定量方法虽然仍是国际语言测试研究的主流,但是质性方法有增长趋势;以英

语为外语或二语的测试和成人学习者仍然是研究的主要对象;五年间语言测试研究的角度多

样,虽有新涌现的研究热点,但大部分仍然是语言测试界长期关注的问题。本文重点分析了近

五年获得较多关注的四个热点研究问题,即评分员的评分行为、综合测试、诊断性评估和课堂

评估。对这四个问题的研究论文进行了批判性分析,对未来的研究方向进行了展望。总体来

看,国际语言测试正从学习评价向促学评价转变;语言测试研究者日益认可语言测试的社会属

性,开始将广泛的利益相关者纳入研究范畴。

经过半个多世纪的发展,语言测试已经发展成为一门独立的学科,专业化程度不断加深。

相比之下,中国外语测试的研究和实践起步晚,历史短。可喜的是越来越多的华人名字开始出

现在这两本期刊上。从作者的隶属机构看,由中国大陆作者独自或合作发表的文章有9篇,而

以拼音署名看,共有42篇文章由华人独立或合作完成。也就是说,两本期刊的209篇研究论

文中

Cheng

,华人作者以独立或合作的方式贡献了总数的1/5,并且在一些领域起到引领作用。如

文,分别聚焦反拨作用和课堂评估

与合作者(Chengetal.2011;

,使这两个领域受到越来越多测试学者的关注

Cheng&Sun2015)和Huang(2010,2012,

。

2015)

华人对语言

多次发

测试领域的贡献不可忽视,且有理由相信随着越来越多年轻学者的加入,华人的学术贡献还将

持续扩大。本文希望通过具体描述国际语言测试的最新焦点,帮助国内研究者了解国际趋势,

并肩国外研究者,走在学术前沿。

·10·

国外语言测试研究热点综述(2011—2015年)

参考文献

[1]Alderson

London:Continuum,

sing

2005.

ForeignLanguageProficiency押TheInterfacebetweenLearningandAssessment[M].

[2]Alderson

Wesche

llengeof(diagnostic)testing:Doweknowwhatwearemeasuring?[A].

[3]

University

AldersonJ

Bayliss

Ottawa

&Banerjee

Press,

Cheng

2007.

L,Turner

Stateof

21-39.

C&DoeC(Eds.).LanguageTestingReconsidered[C].

Ottawa:

FoxJ,

Teaching,2001,34:213-236.

theartreview:Languagetestingandassessment(part1)[J].Language

[4]

Teaching

Alderson

2002,

C&Banerjee

35:79-113.

ftheartreview:Languagetestingandassessment(part2)[J].Language

[5]Alderson

ment:Insights

JC,Brunfaut

fromprofessional

T&Harding

practice

acrossdiverse

atheory

fields

ofdiagnosis

[J].Applied

insecond

Linguistics

andforeign

,2014,

language

36:236-260.

assess鄄

[6]Alderson

bridgeUniversity

JC,Clapham

Press,

1995.

&geTestingConstructionandEvaluation[M].Cambridge:Cam鄄

[7]

[8]

Bachman

BakerBA.

Individual

&Palmer

differences

inrater

Assessment

decision鄄making

inPractice[M].Oxford:OxfordUniversityPress,2010.

Language

Assessment

Usingmultilevel

Quarterly

modelling

,2012,9(3):

inlanguage

225-248.

style:Anexploratorymixed鄄methodsstudy[J].

[9]

guage

Barkaoui

AssessmentQuarterly,2013,10(3):241-273.

assessmentresearch:Aconceptualintroduction[J].Lan鄄

[10]

Practice

BlackP

1998,

William

(1):

7-74.

Assessmentandclassroomlearning[J].AssessmentinEducation押Principles熏Policy&

[11]Brookhart

achievement

SM.

[J].

Atheoretical

AppliedMeasurement

framework

for

Education

therole

1997,

classroom

(2):

assessment

161-180.

inmotivatingstudenteffortand

[12]Brookhart

Record,2004,

SM.

106(3):

Classroom

429-458.

assessment:Tensionsandinteractionsintheoryandpractice[J].TeachersCollege

[13]Brookhart

cialstudies

classes

M&Durkin

[J].

Applied

oom

Measurement

assessment,

inEducation

student

,2003,

motivation,

(1):27-54.

andachievementinhighschoolso鄄

[14]Cai

sessment

HW.

Quarterly

Weight鄄based

,2015,

classification

12(3):262-282.

ofratersandratercognitioninanEFLspeakingtest[J].LanguageAs鄄

[15]Carey

ingin

oral

proficiency

MannelR

interviews?

H&DunnP

[J].

Language

arater蒺s

Testing

familiarity

,2011,

with

28(2):

acandidate蒺s

201-219.

pronunciationaffecttherat鄄

[16]Chapelle

ation[J].

CA,

Language

CotosE

Testing

&Lee

2015,

32(3):

arguments

385-405.

fordiagnosticassessmentusingautomatedwritingevalu鄄

[17]Chen

2014,

31(1):

&Chalhoub鄄Deville

63-87.

plesofquantileregressionandanapplication[J].LanguageTesting,

[18]Cheng

parents蒺

views

Andrews

ofSBA

Hong

Kong

Impact

[J].

and

Language

consequences

Testing

school鄄based

2011,28(2):

assessment

221-249.

(SBA):Students蒺and

[19]Cheng

guageAssessment

L&SunY.

Quarterly

Teachers蒺

,2015,

grading

12(2):

decision

213-233.

making:Multipleinfluencingfactorsandmethods[J].Lan鄄

[20]Cho

iBT

integrated

RijmenF

writing

&Nov佗k

tasks

[J].

Investigating

Language

the

Testing

effects

2013,

prompt

30(4):

characteristics

513-534.

onthecomparabilityofTOEFL

[21]CrossleyS,ClevingerA&eoflexicalpropertiesandcohesivedevicesintextintegration

·11·

and

外语测试与教学摇2018年第2期

their

-270.

effectonhumanratingsofspeakingproficiency[J].LanguageAssessmentQuarterly,2014,11(3):250

[22]Cubilo

impacts

visual鄄cue

WinkeP.

interpretation

Redefiningthe

and

note鄄taking

listeningconstruct

[J].Language

withinan

Assessment

integrated

Quarterly

writing

task:

2013,

Considering

10(4):371-

the

[23]

397.

51.

iseinevaluatingsecondlanguagecompositions[J].LanguageTesting,1990,7(1):31-

[24]

18.

ning,deepeningandconsolidating[J].LanguageAssessmentQuarterly,2004,1(1):5-

[25]Cumming

sessmentQuarterly

ing

,2013,

integrated

10(1):

writing

1-8.

tasksforacademicpurposes:Promisesandperils[J].LanguageAs鄄

[26]Cumming

framework

[J].

Kantor

Modern

Language

PowersD

Journal

,2002,

making

86(1):

while

67-96.

ratingESL/EFLwritingtasks:Adescriptive

[27]Davies

sessment

Vol.

Fifty

I[C].

yearsof

Chichester:

languageassessment

WileyBlackwell,

[A].In

2014.

Kunnan

3-16.

AJ(Ed.).TheCompaniontoLanguageAs鄄

[28]Davison

2009,43(3):

C&Leung

393-415.

tissuesinEnglishlanguageteacher鄄basedassessment[J].TESOLQuarterly,

[29]Doe

110-135.

tinterpretationsofdiagnosticfeedback[J].LanguageAssessmentQuarterly,2015,12(1):

[30]East

reform

[J].

Coming

Language

toterms

Testing

with

innovative

2015,32(1):

high鄄stakes

101-120.

assessmentpractice:Teachers蒺viewpointsonassessment

[31]Eckes

Language

Testing

types

,2008,

inwriting

25(2):

performance

155-185.

assessments:Aclassificationapproachtoratervariability[J].

[32]Eckes

guage

Assessment

Operational

Quarterly

rater

types

2012,

9(3):

writing

270-292.

assessment:Linkingratercognitiontoraterbehavior[J].Lan鄄

[33]Elder

work?

[J].

Knoch

Language

U,Barkhuizen

Assessment

Quarterly

&vonRandow

,2005,

2(3):

Individual

175-196.

feedbacktoenhanceratertraining:Doesit

[34]Frost

course鄄based

K,ElderC&igatingthevalidityofanintegratedlistening鄄speakingtask:Adis鄄

[35]GebrilA&Plakans

analysis

Toward

testtakers蒺

atransparent

oralperformances

construct

[J].

ofreading鄄to鄄write

LanguageTesting

tasks:

,2012,

The

29(3):

interface

345-369.

coursefeaturesandproficiency[J].LanguageAssessmentQuarterly,2013,10(1):9-27.

betweendis鄄

[36]Gui

[J].

Language

Exploring

Assessment

differences

Quarterly

between

,2012,

Chinese

9(2):

andAmerican

186-203.

EFLteachers蒺evaluationsofspeechperformance

[37]Harding

theOET

[J].

Pill

Language

J&Ryan

Assessment

Quarterly

decision

,2011,

making

8(2):

whilemarking

108-126.

anote鄄takinglisteningtest:Thecaseof

[38]Harding

language:

Elaborating

AldersonJ

diagnostic

Brunfaut

principles

stic

[J].

assessment

LanguageTesting

ofreading

,2015,

andlistening

32(3):317-336.

inasecondorforeign

[39]Harlen

mathematics

[J].

Winter

Language

elopment

Testing,2004,

21(3):

assessment

390-408.

forlearning:Learningfromthecaseofscienceand

[40]Hill

based

assessment

&McNamara

[J].

Language

Developing

Testing

acomprehensive,

,2012,9(3):

empirically鄄based

395-420.

researchframeworkforclassroom鄄

[41]Huang

learning

strategies

Convergent

[J].

vs.

Language

divergent

Testing

assessment:

,2010,

Impact

28(2):

oncollege

251-271.

EFLstudents蒺motivationandself鄄regulated

·12·

国外语言测试研究热点综述(2011—2015年)

[42]Huang

university

[J].Language

learners

Assessment

toworkthrough

Quarterly

tests

and

2012,

marks:

9(1):

Motivating

60-77.

ordemotivating?AcaseinaTaiwanese

[43]Huang

2015,12(4):

363-385.

writingrevisiongoalsafterassessmentforlearning[J].LanguageAssessmentQuarterly,

[44]Hume

Assessment

Coll

Education押

ment

Principles熏

Policy

learning,

&Practice

forlearning,

,2009,

and

(3):

aslearning:

269-290.

NewZealandcasestudies[J].

[45]Jang

Language

EE&

Assessment

WagnerM.

[C].

Diagnostic

Chichester:

feedback

Wiley

Blackwell,

theclassroom

2014.

[A].

693-711.

InKunnanAJ(Ed.).TheCompanionto

[46]Jin

[J].

Language

MakB&

Testing

Zhou

2012,

Confidence

29(1):

scoring

43-65.

ofspeakingperformance:Howdoesfuzzinessbecomeexact?

[47]Kang

teaching

assistants蒺

Impactofrater

oralperformance

characteristics

[J].

and

Language

prosodicfeatures

Assessment

ofspeaker

Quarterly

accentedness

,2012,9(3):

onratings

249-269.

ofinternational

[48]Kim

sessment

AY.

Exploring

L2reading

ways

ability

toprovide

[J].Language

diagnostic

Testing

feedback

,2015,

withan

ESL

(2):

placement

227-258.

test:Cognitivediagnosticas鄄

[49]Kim

Quarterly

HJ.

2015,

qualitative

12(3):

analysis

239-261.

ofraterbehavioronanL2speakingassessment[J].LanguageAssessment

[50]Kim

Testing

2011,

Diagnosing

28(4):

EAP

509-541.

writingabilityusingtheReducedReparameterizedUnifiedModel[J].Language

[51]Kim

Language

H&Elder

Testing

,2015,

Interrogating

32(2):

the

129-149.

constructofaviationEnglish:FeedbackfromtesttakersinKorea[J].

[52]Knoch

[J].Language

igating

Testing,

the

2011,

effectiveness

28(2):

179-200.

individualizedfeedbacktoratingbehavior—Alongitudinalstudy

[53]Koizumi

grammar

R,Sakai

test

for

Ido

Japanese

T,Ota

learners

H,Hayama

ofEnglish

M,Sato

[J].

Language

NemotoA.

Assessment

Development

Quarterly

and

validation

2011,8(1):

ofadiag鄄

[54]

72.

nostic53-

(Eds.).

KunnanA

The

Handbook

JangEE.

ofLanguage

Diagnostic

Teaching

feedback

[C]

inlanguage

Malden:

assessment

Blackwell,

[

2009.

A].In

610-627.

LongMH&DoughtyCJ

[55]

Quarterly

LeeY鄄W

2009,

Sawaki

6(3):

ive

169-171.

diagnosisandQ鄄matricesinlanguageassessment[J].LanguageAssessment

[56]Leung

mentQuarterly

ping

,2004,

formative

1(1):19-41.

teacherassessment:Knowledge,practice,andchange[J].LanguageAssess鄄

[57]elopment

experienced

and

raters

maintenance

[J].Language

ofrating

Testing

quality

2011,

performance

28(4):

writing

543-560.

assessment:Alongitudinal

[58]

[59]

McNamara

studyofnew

MilanovicM,

and

Saville

Measuring

N&Shen

Second

Language

Astudyof

Performance

thedecision鄄making

[M].London:

behaviour

Addison

ofcomposition

WesleyLongman,

markers[A].

1996.

[60]Moere

15th

Milanovic

Language

Testing

Saville

Research

N(Eds.).

Colloquium

Performance

[C].

Testing

Cambridge:

,Cognition

Cambridge

andAssessment

University

Press,

Selected

1996.

Papers

92-114.

fromthe

325-344.

olinguisticapproachtoorallanguageassessment[J].LanguageTesting,2012,29(3):

[61]Ockey

locutor

familiarity

J,Koyama

facet

Setoguchi

thegroup

oral

Stakeholder

discussion

input

test[J].

andtest

Language

design:

Assessment

Acasestudy

Quarterly

onchanging

,2013,

the

10(3):

inter鄄

[62]

292-308.

O蒺SullivanB&ingthevalueofbiasanalysisfeedbacktoratersfortheIELTSwriting

module

13·

外语测试与教学摇2018年第2期

[

2007.

A].In

446-476.

TaylorL&FalveyP(Eds.).IELTSCollectedPapers[C].Cambridge:CambridgeUniversityPress,

[63]

cording

Poehner

learner

E,Zhang

So,

responsiveness

J&LuX.

whydoweneed

Computerized

mediation

relationships

[J].

dynamic

with

Language

assessment

stakeholders

Testing

(C鄄DA):

,2015,

language

32(3):

Diagnosing

testing?

337-357.

L2developmentac鄄

[64]

[J].

Rea鄄Dickens

Language

Testing,1997,14(3):304-314.

AviewfromtheUK

[65]

ting

Rea鄄Dickins

,2001,18(4):

429-462.

mirroronthewall:Identifyingprocessesofclassroomassessment[J].LanguageTes鄄

[66]Rea鄄Dickins

[J].Language

Testing

Gardner

,2000,

17(2):

and

215-243.

silverbullets:Disentanglingtheconstructofformativeassessment

[67]Shaw

Cambridge:

SD&

Cambridge

ing

UniversityPress,

Writing押

2007.

ResearchandPracticeinAssessingSecondLanguageWriting[M].

[68]TurnerCE&ng鄄orientedassessmentinsecondandforeignlanguageclassrooms[A].In

[69]Vongpumivitch

255-272.

TsagariD&BaneerjeeJ(Eds.).HandbookofSecondLanguageAssessment[C].Boston:DeGruyter,2016.

EnglishProficiency

ting

Test[J].

lifelong

Language

learning

Assessment

ofEnglish?

Quarterly

Test

takers蒺

2012,

perceptions

9(1):26-59.

ofthesuccessoftheGeneral

[70]Wei

ingtasks

J&Llosa

[J].

Language

Investigating

Assessment

differences

Quarterly

between

,2015,

American

12(3):

and

283-304.

IndianratersinassessingTOEFLiBTspeak鄄

[71]Winke

[J].Language

P,GassS

Testing

&Myford

,2013,

蒺

30(2):

231-252.

backgroundasapotentialsourceofbiasinratingoralperformance

[72]Wolfersberger

representation

[J].

Refining

Language

the

Assessment

constructof

Quarterly

classroom鄄based

,2013,10(1):

writing鄄from鄄readings

49-72.

assessment:Theroleoftask

[73]Yu

terly

,2013a,

Theuse

10(1):

ofsummarization

96-109.

tasks:Somelexicalandconceptualanalyses[J].LanguageAssessmentQuar鄄

[74]Yu

2013b,

10(1):

integrative

110-114.

tointegratedassessment:Arewethereyet?[J].LanguageAssessmentQuarterly,

[75]Zhang

Competing

Elder

complementary

nts

constructs?

oforalproficiency

[J].Language

bynon鄄native

Testing,

and

2011,

native

28(1):

English

31-50.

speakingteacherraters:

[76]

[77]

韩宝成,罗凯洲.语言测试效度及其验证模式的嬗变[J].外语教学与研究,

[78]

李清华

[79]

梁茂成

.语言测试之效度理论发展五十年[J].现代外语,2006,(1):87-95.

2013,(3):411-425.

[80]

林敦来

刘建达

文秋芳

武尊民

现代技术与语言测试

国外自动作文评分系统评述与启示

国外语言评价素养研究的最新进展

[J].外语电化教学,2007,(5):18-24.

———应用、影响及发展方向

[J].

现代外语

外语电化教学

,2014,(5):

,2013,

711-720.

[81]

(4):46-51.

[82]

梅昳

[83]

田文燕

,聂建中

[84]

文秋芳

,林琳

国外计算机化语言测试现状综述

.语言测试伦理研究问题述评

.2001-2015年应用语言学研究方法的使用趋势

[J].

外语界

2006,

2009,

[J].

(5):

(4):

现代外语

68-74.

91-96.

,2016,(6):842-852.

[85]

胥云

2015,

郑宇静

,武尊民

(2):

,辜向东

.国外考试策略研究综述

58-63.

.从有效测试到有效使用

——

:《

—

语言评测季刊

五十年回顾[J].

》十年名家访谈录启示

外语教学理论与实践

[J].

,2011,

外语与外语教学

(1):43-51.

作者联系方式:北京信息科技大学外国语学院,北京100192

·14·

本文标签：研究测试评分语言评估

版权声明：本文标题：国外语言测试研究热点综述(2011—2015年) 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/b/1712888440a611018.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

国外语言测试研究热点综述(2011—2015年)

更多相关文章

【解密01.AI的AI 2.0：探索Yi系列大型语言模型的安装与使用】

C语言获取Linux系统当前时间（精确到毫秒）

linux系统语言更改

软件测试工程师笔试题以及答案汇总

2022 软件测试填空判断题【太原理工大学】

Comprehensive Rust集成测试：跨模块功能验证

谷歌浏览器多版本切换测试兼容性

Android安卓虚拟机安装部署及测试举例

Appium搭建MacOS环境下的iOS App自动化测试环境（Windows搭个MacOS虚拟机就行，亦无须iPhone）

系统清理软件测试,系统垃圾清理有用吗？六大清理工具评测

那个软件测试cpu温度准确,什么软件测试cpu温度准确_测试cpu温度准确软件汇总...

GPT-OSS-20B的跨平台一致性测试：WindowsLinuxmacOS表现对比

R语言的下载与安装（win&amp;mac）

如何使用MemTest全面检测与诊断内存故障

2023年至2024年显卡性能排行：全面对比与选购建议

一文在手，戴尔笔记本键盘失灵不再是难题！

从单一到多元：教你在浏览器里轻松配置多语言环境

从头学起，掌握SWF到HTML5转化技巧

Java在线写字板构建全程：源代码与技术文档深入解读

从UML到实际应用：Adobe Flash中心的模型构建艺术

发表评论

推荐文章

Word 2010老是自动进安全模式，是不是文件有问题？

斐讯k2路由器刷华硕固件做桥接中继_斐讯k2刷华硕怎么设置无线桥接

Vim中设置空格(space)代替tab键_vim 空格代替tab

深度解析：360手机助手卸载功能背后的原理与实践

树莓派5的无线网卡：Raspbian系统下的优化设置

热门文章

U盘发现SystemVolumeInformation.exe：如何判断它是否为病毒？

SpringBoot & Dubbo：处理启动中的地址已使用错误，一文教你快速解决

QQ流氓服务(QQProtect.exe||QQ安全防护进程||Q盾)的自动解决方案_qq安全防护进程q盾 损坏

mac m1无法读取移动硬盘_m1硬盘推出后 重新连接不显示

如何Diskgenius将U盘分区_diskgenius u盘分区

解决【无任何网络提供程序接受指定的网络路径】_无任何网络提供程序接受指定的网络路径 2003 samba

音乐歌词获取终极指南：网易云QQ音乐歌词一键

隐藏文件夹怎么显示？【图文详解】显示隐藏文件夹？显示隐藏文件？系统隐藏文件显示？_显示隐藏文件夹怎么设置

AttachThreadInput实现窗口有效显示在前台

笔记本与WiFi无缘？跟着这指南用手机热点轻松上网！

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑

R语言的下载与安装（win&mac）

QQ流氓服务(QQProtect.exe||QQ安全防护进程||Q盾)的自动解决方案_qq安全防护进程q盾损坏

mac m1无法读取移动硬盘_m1硬盘推出后重新连接不显示