admin 管理员组文章数量: 1184232
2024年4月12日发(作者:selected概念系列)
外语测试与教学
2018年第2期
ForeignLanguageTestingandTeaching
Apr2018
[中图分类号]H319摇摇[文献标识码]A摇摇[文章编号]2095-1167(2018)02-0001-14
国外语言测试研究热点综述
(2011—2015年)
*
周珊珊
提要:本文对2011—2015年刊登在《语言测试》和《语言测评季刊》两本语言测试领域权威期刊上的全部研
究论文从研究方法、研究对象、研究问题三个层面进行了质性研究。研究发现:定性研究和混合研究有增加的
趋势;以英语为外语(EFL)或二语(ESL)的测试仍然是研究的主要对象,实证研究主要以成人学习者为研究
对象;值得关注的四个研究热点是评分员的评分行为、综合测试、诊断性评估和课堂评估。语言测试研究正从
学习评价向促学评价转变;语言测试的社会属性得到越来越多的关注。研究结果有助于国内研究者了解国际
研究热点和趋势,走在学术前沿。
关键词:语言测试;文献研究;研究热点;趋势
Abstract:Inordertogainaninsightintothestate鄄of鄄the鄄artofinternationallanguagetestingresearch,thispaperre鄄
views
Language
allthe
subjects
Assessment
research
Quarterly
articlespublished
.Thearticles
from2011
are
to2015intwoleadingjournalsinthefield,LanguageTestingand
ology.
rentresearch
reviewed
indicates
from
that
three
quantitative
aspects,i.
research
e.,research
isstill
methodology,
the
research
ESL
emerging
learners
However,
concerns
arethe
SLtests
dominant
andadult
method鄄
EFLor
are
major
surveyed
research
indetail,
objects.
i.e.
There
,rater
has
behavior,
beenavariety
integrated
ofresearch
test,diagnostic
concernsin
assessment
thepastfive
and
years.
classroom鄄
Four
based
ing.
cialdimension
The
assessment.
practice
oflanguage
of
The
involving
concerns
tests.
stakeholders
oflanguage
Thispaper
in
testers
contributes
theresearch
arechanging
to
of
fromassessmentoflearningtoassessmentforlearn鄄
a
language
betterunderstanding
testingindicates
ofthe
agrowing
status鄄quo
concern
ofinternational
fortheso鄄
language
Keywords
testing
:language
research.
testing;literaturereview;emergingconcerns;trends
1.引言
国外语言测试研究一般以Lado于1961年出版的《语言测试》一书为起点,距今已有近60
年历史
Skehan
。
言测试领域研究焦点的演进
1988;
2001
Alderson
年以前对国际语言测试研究进行综述的文章有三篇最具代表性
&Banerjee
,从早期关注交际语言测试的开发
2001,2002,转引自Davies2014:
、语言能力的构念
4)。这三篇文章揭示了语
(Davies1982;
80
,到20世纪
题、
年代关注统计方法的应用和标准参照测试
标准制定、自我评估等。承接这三篇综述,Davies
,再到20
(2014:13)
世纪末关注测试的反拨效应
分析了2002-2012年十年间
、伦理问
*摇
*
作者在北京师范大学访学期间由罗少茜教授指导完成本文
部也给出了宝贵的审读意见
摇
,在此一并深表谢意。
,并得到赵海永博士的帮助和建议,《外语测试与教学》编辑
·1·
外语测试与教学摇2018年第2期
的研究状况,列举了新呈现的研究热点,包括国家级测试、测试的社会学和政治学视角、包含测
试使用的效度研究、新的口语测试形式、世界英语等。
相比国外语言测试研究,国内语言测试研究起步相对较晚。对国外研究的综述主要集中
在某一具体方面,如效度和效度验证(李清华2006;韩宝成,罗凯洲2013)、考试策略(胥云,武
尊民2011)、评价素养(林敦来,武尊民2014)、伦理问题(梅昳,聂建中2009)、作文自动评分
系统(梁茂成,文秋芳2007)、现代技术与语言测试(田文燕2006;刘建达2013)等。郑宇静,
辜向东(2015)通过定性研究《语言测评季刊》(LanguageAssessmentQuarterly)中刊登的10位
名人访谈笔录,从语言能力标准的制定、语言测试的研发、语言测试的使用和社会影响三个方
面探讨了国外语言测试研究的特点和发展趋势。但是,仅以10位名人访谈为数据不足以描绘
近年国外语言测试研究的全貌,宏观概述无法提供清晰的指引。总体而言,对国外最新研究现
状进行具体综述的文献远远不足。
2.研究方法和研究问题
本文将从研究方法、研究对象、研究问题三个层面梳理2011-2015年国外语言测试的研
究论文,旨在了解国际语言测试的最新研究现状,为国内语言测试研究提供参考。论文是《语
言测试》(LanguageTesting)和《语言测评季刊》(LanguageAssessmentQuarterly)2011—2015年
刊登的全部研究论文
review)。
,共209篇,不包括书评(bookreview),编者按(editorial)和测试评论(test
议期刊
Banerjee
;二
选择这两本期刊有两个原因
、著作具有滞后性,相比著作
:一
,期刊论文
、这两本期刊是国际语言测试领域最重要的同行评
“更能反映最新的研究成果冶(
本文的具体研究问题是
2001:213)。
Alderson&
:(1)这五年国际语言测试的研究方法、研究对象有何特点?(2)
这五年国际语言测试研究的热点话题是什么?(3)这五年国际语言测试研究的特点和趋势是
什么?
3.国际语言测试研究热点分析
3.1研究方法和研究对象
从研究视角看,209篇研究论文中,理论研究占33篇、实证研究175篇、4篇为结合理论与
实证的研究。这4篇理论与实证结合的研究均以理论为主,首先提出一种新的测试或评分模
2014),
式(Jin
然后进行实证验证
etal.2012;Moere
。
2012)
从研究方法看
或数据统计方法
,175篇实证研究中
(Barkaoui2013;
,使用定量研究方法的占
Chen&Chalhoub鄄Deville
篇,使用定性研究方法的21篇,使用定量、定性相结合的混合研究方法的54篇。虽然从数据
100
看,定量研究方法仍然是国际语言测试研究的主流,但是定性研究和混合研究有增长的趋势。
而在《语言测评季刊》上,使用定性和混合研究方法的总数与使用定量研究方法的总数相当。
这一趋势也回应了《语言测评季刊》2004年创刊时主编Cumming的呼吁,他呼吁语言测试研
究者使用多样的研究方法,扩大研究范围(Cumming2004:9)。
从研究对象看,以英语为外语(EFL)或二语(ESL)的测试仍然是研究的主要对象,仅有17
篇文章研究的是其它语言为外语或二语的测试。实证研究主要在大学开展,以成人学习者为
研究对象。笔者认为以成人学习者为主要研究对象的首要原因是从事语言测试研究的人员集
中在高等院校,因此以大学生为研究对象比较方便;其次是目前的标准化测试主要面向成人学
·2·
国外语言测试研究热点综述(2011—2015年)
习者,而标准化语言测试仍然是一个重要的研究领域。以基础教育阶段学生(K鄄12)为研究对
20
象的有35篇,其中4篇关注学前儿童。对青少年学习者(younglearners)的语言测试研究始于
者有近一半来自于韩国
世纪60年代,在90年代明显增加
、芬兰、荷兰、中国香港
。从35篇文章作者的隶属机构看
、中国台湾等母语非英语国家和地区
,青少年学习者的研究
。在这些地
方
derson
,英语被纳入基础教育体系
&Banerjee(2001)也认为二语教学
,为研究面向青少年学习者的语言测试提供了丰富的数据
(特别是英语)被越来越多地纳入主流教育体系促
。Al鄄
进了对青少年语言测试研究的增加
3.2研究热点问题
。
对175篇实证研究的研究问题分析发现,五年间语言测试的研究角度多样。虽有涌现新
的研究热点,但大部分仍然是语言测试界长期关注的问题,诸如效度、效度验证、语言能力(听
力、口语、阅读、写作)的构念等一直是研究的焦点,一方面因为这些问题对语言测试的理论和
实践至关重要,理应是研究热点(Davies2014:16);另一方面也反映了语言测试在半个世纪的
发展中专业化进程的加深和问责机制的巩固,语言测试者一直致力于确保测试达到测试的目
的。具体研究问题的统计如表1所示。
表1摇研究问题归类
序号研究问题频次
(1)
(2)
效度和效度验证(validityandvalidation)25
(3)
评分员的评分行为
口语评价
(raterbehavior)18
(4)
(5)
测试开发
(assess
(testdevelopment)
speaking)19
(6)
听力评价
11
(7)
综合测试
(assess
评价素养
(integrated
listening)
(assessment
test)
11
10
(8)(diagnostic
literacy)10
测试的使用
诊断性评估
(testuse)
assessment)9
(10)
(9)
课堂评估
8
(11)写作评价
7
(12)
(13)
词汇和语法评价
(assess
(classroom鄄basedassessment)
7
(14)
反拨和影响
(assess
writing)
vocabularyandgrammar)6
(15)
语音评价
(washbackandimpact)6
(16)
阅读评价
(assessspeech)6
(17)
利益相关者的参与
(assessreading)6
(18)
标准制订
6
(19)
信度
(standard鄄setting)
(involvestakeholders)
4
(20)
测试与二语习得
(reliability)3
语用评价(assess
(SLA)
pragmatics)
3
2
·3·
外语测试与教学摇2018年第2期
读和写作评价等诸多测试界长期关注的问题
Alderson&Banerjee(2002)和Davies(2014)
;林敦来
详细回顾了效度和效度验证
,武尊民(2014)综述了国外有关评价素
、听力、口语、阅
养的最新进展。下文将重点讨论前人综述中未提及而五年间获得较多关注的四个研究热点,
即评分员的评分行为、综合测试、诊断性评估和课堂评估。下文将以两本期刊中的论文为主,
重点回顾这四个研究热点的具体研究问题,并在每一个问题上结合重要文献进行对比和展望,
旨在为国内语言测试研究提供启示
3.
评分员在口语和写作评价中具有重要地位
2.1评分员的评分行为
。
。评分员因自身经验、背景和认知等原因可能
在评分过程中引入与测试构念无关的因素
“
,从而影响测试的效度
评分员至少在四个方面存在差异
无论测试开发得多么有效都将毫无意义
son(2002)在综述写作评价的发展时回顾了以写作评分员为研究对象的实证研
:一致性、
冶
严苛度
(Shaw
、
&
对评分量表的使用
Weir2007:143)。
。而如果不能保证评分标准
、
McNamara
评分员的偏见
(1996)
。Alder鄄
指出
,
究,包括新手和老手评分员
&Banerjee
、专家和外行评分员、母语和非母语评分员评分行为的差异。
2011;
五年间,对评分员的实证研究明显增加,研究对象也进一步扩大,既包括写作评分员(Lim
究的范围包括评分结果
Eckes2012),也包括口语评分员
、评分过程、评分策略
(Zhang
、评分的发展变化等
&Elder2011;Carey
。
et
归纳来看
al.2011;
,五年间对评分员
Cai2015)。研
的研究主要分为以下三类
3.
评分员的个人背景是影响评分行为的一个重要因素
2.1.1评分员的个人背景对评分的影响
:
。个人背景包括语言背景和非语言背
景。
为汉语的评分员在评价
Zhang&Elder(2011)
30名中国考生的口语样本上的差异
采用混合研究方法比较了19名母语为英语的评分员与
。结果显示两组评分员在总体评
20名母语
分上并无显著差异,但两组评分员对口语能力构念的理解不同,母语为英语的评分员在评分时
考虑的因素要多于母语为汉语的评分员。Gui(2012)通过比较3名母语为英语与3名母语
为汉语的评分员对演讲比赛的评分,得出了相似的研究结果,即两组评分员的评分在分值上无
显著差异,但母语为英语的评分员能够给出更具体的评论。Wei&Llosa(2015)比较了3名
英语为母语的评分员与3名英语非母语的印度评分员的口语评分,结果仍然是两组评分员在
评分
(2011)
、一致性
与Wei
、严苛度以及对印式英语的态度上没有显著差异
&Llosa(2015)均采用整体评分法,Gui(2012)
。
采用分项评分法
评分方法上,Zhang
。他们的研究
&Elder
表明,无论是采用整体评分法还是分项评分法,评分员的母语或非母语背景均不会影响评分。
除了母语背景,评分员的语言背景还包括评分员自身的二语学习体验,评分员对考生口音
的接触范围和程度。Careyetal.(2011)的研究对象是来自不同国家雅思考试中心的99名评
分员。Careyetal.比较了他们对3名分别来自中国、韩国和印度的考生的语音评分。结果表
明评分员对考生的中介语越熟悉,越容易给该考生打高分。Winkeetal.(2013)将研究对象
扩大到107名评分员,口语样本来自72名学生,结果发现评分员自身的二语学习背景会影响
评分,
景包括评分员的母语
Kang
学习过西班牙语和汉语的评分员对一语是西班牙语和汉语的考生打分更宽松
(2012)将评分员的个人背景视为整体进行研究
。
、在语言学习和教学方面的经验以及与英语为非母语学习者的接触程度
。研究对象是新手评分员,个人背
。
研究发现评分员的个人背景能够解释7%-9%的口语评分差异。
·4·
国外语言测试研究热点综述(2011—2015年)
3.
评分员的评分实际上是评分员的一个决策制定过程
2.1.2评分员的认知(ratercognition)
,会受到多重因素影响,其中之一是评
90
分员的个人认知,比如,对某一方面(如句法问题)特别严苛会带来评分的差异。从20世纪
al.
年代开始就已经有学者对此展开了研究
2002;
Harding
Eckes
etal.
2008)。
(2011)
五年间两本期刊中
(Cumming
用质性方法研究了
,有以下
3名评分员的评分过程
4
1990;
篇继续在这一方面进行了研究
Milanovicetal.1996;Cumming
,研究对象是澳大利亚的
。
et
职业资格考试OET听力测试中的记笔记一项。研究者在评分员打分后对其进行了焦点团体
座谈,并对座谈内容进行了质性分析。研究揭示了评分员在打分时会做哪些决定,以及所做决
定基于的原则,其中之一是评分员的“知识和信念(knowledgeandbeliefs),本质上即评分员的
认知,
sion鄄making
Baker
包括个体评分员与评分有关的一切理解
(2012)采用探索性的混合研究方法试图寻找能够描绘评分员决策制定风格
、知识和信念冶。
(deci鄄
频次,以及评分过程中的思维等数据
style,DMS)的数据。除了问卷调查
,并对这些数据与决策风格的相关性进行了讨论
,Baker收集了评分员延迟打分和低分高打的
。Baker
还发现决策制定风格与写作文本也有关系。虽然Baker没有建立起这些数据与决策制定风格
之间的相关模型,也未揭示决策制定风格对评分具体有多大程度的影响,但研究表明了评分员
差异研究中
(2012)
Eckes(2012)
,评分员的社会认知差异是不容忽视的因素
和Cai(2015)将评分员的认知与评分员的实际评分行为联系起来
。
。Eckes
类基于评分员对标准的不同看法
发现认知类型不同的评分员在实际评分结果上也有明显区别
,比如认为语法比流利更重要的评分员在语法的评分上倾向
。Eckes对评分员的分
于严苛,在流利的评分上倾向于宽松。Cai(2015)根据评分员的实际打分将评分员分为三种
类型,注重形式型、注重内容型和平衡型。这三种类型的划分与评分员的自我认知和实际打分
相吻合,如注重语言形式的评分员倾向于忽视内容上偏题的问题。两者的不同在于,Eckes以
写作评分员为研究对象,Cai以口语评分员为研究对象。二者的共同之处是把评分员的认知
与实际评分联系起来,他们的研究都证明评分员的认知会体现在评分上,因此在培训评分员时
应该使评分员意识到个人倾向,并避免将个人的认知倾向引入实际评分,从而带来测试构念的
不均衡表达
3.
,
正因为评分员存在个体认知和背景的差异
2.1.3
降低测试的效度
评分行为的发展
。
,为了保证评分效度,对评分员进行培训是必不
可少的环节
Elderet
,而研究评分行为的变化则关乎培训是否有效
al.(2005)的研究表明对反馈持积极态度的评分员能够利用反馈改善评分行为
、有效期多长等问题。
O蒺Sullivan&Rignall(2007)的研究结果则不同,即使评分员对反馈持积极态度
。
反馈也无法减少评分员之间的差异。这些研究采用一次性实验设计,只涉及口语或写作其中
,提供个性化的
一类评分员。Knoch(2011)的创新之处在于用历时研究方法观察了10名写作评分员和9名
口语评分员在得到个性化反馈后的评分变化,其研究结果表明,虽然评分员普遍认可个性化反
馈的意义
指标
Lim
。结果发现尽管起初部分新手评分员的评分质量不佳
(2011)
,但无论是写作还是口语评分员
历时研究了新手评分员评分质量的发展轨迹
,并没有改善其自身评分行为
,但能很快调整到与老手评分员一
,评分质量以一致性和严苛度为
。
样的水平
KimH
;在该研究跨越的时间段里
J(2015)的研究结果与Lim
,新手评分员能够维持评分质量
不同,他历时研究了新手(novice)、
;评分质量与评阅量有关
成长型(developing)
。
·5·
外语测试与教学摇2018年第2期
和老手(experienced)评分员在经过两次培训后的三次评分变化,结果显示老手评分员能一直
保持稳定的质量,而新手评分员在经过两次培训后仍存在问题,成长型评分员则从培训中获益
最大。Kim的研究结果表明常规的评分员培训应按照评分经验分组培训,而不宜将所有的评
分员放在一起。
总之,五年间对评分员的研究角度更趋多样化,研究问题也更为具体。对评分员的研究热
度显示了语言测试界日益认识到评分员这一变量的复杂性,也认识到评分员对于测试效度的
意义。如何通过有效的培训减少评分员个人因素带来的评分差异将是未来关注和努力的方
向。
3.
Yu
2.
(2013b)
2综合测试
以上宏观语言技能的测试
将近几年获得热点关注的综合测试
,如听后说、读后写、听后写、
(
听读后写等测试
integratedtest)定义为综合两种及两种
,以区别于早期与分离
式测试相对立的综合性测试(integrativeassessment),如完形填空。综合测试近年来得到越来
越多学者的关注,一是因为综合测试模拟了真实的语言使用环境,真实性较高。比如不少大学
课程要求学生能在阅读后根据材料写作或展开讨论,学生需要知道如何恰当地使用原材料。
因此,对于面向准大学生的语言测试,如TOEFL,理所应当地需要回应这样的学业要求。传统
测试将语言分割为听说读写,忽视了语言在实际使用中的综合性本质。二是因为语言测试的
题型已经固化多年,传统的测试项目从开发到效度验证已经被大量研究。综合测试作为一种
10
新颖的形式
篇有关综合测试的文章
,还有许多未知
。
,
从研究问题看
因此近年来引发了学界的研究兴趣
,10篇文章用不同的方法多角度探讨了
。五年间两本期刊共刊登了
个问题
“什么冶这
试的效度
Frost
,即综合测试的构念是什么
。
et
Frost
al.(2012)
etal.(2012)
和Crossley
,以及现有综合测试的效度
的研究对象是牛津英语测试中一项先听后口头复述的测试
etal.(2014)都采用了语篇分析的方法研究了听说综合测
。
,研
究者分析了复述文本的内容特征,如包含原材料关键信息点的数量及对原材料理解的准确度,
并与考生的口语成绩进行对比,结果发现复述的内容与考生的口语水平密切相关,水平越高的
考生复述的信息点越多,越准确。这项研究验证了“听后复述冶综合测试以及内容评分量表的
效度。Crossleyetal.(2014)的研究对象是TOEFL鄄iBT的听说综合测试。基于60名考生的
语料库,研究者分析了听力原材料的词汇特征与考生对原材料的引用和口语评分的关系。结
果显示听力原材料的词汇特征能够预测考生对原材料的引用,如在原文中重复次数越多的词
汇被考生引用得越多,引用原文词汇越多的考生得到的口语评分越高。这项研究对标准化语
言测试的开发具有重要启示,比如确定听力文本中词汇的重复程度,重复次数太多或太少都会
影响对口语能力的正确评估,从而影响效度。
上述两项研究一个从产出入手,一个从输入入手,研究输入或产出特征与口语评分,即口
语语言能力的关系,从而探讨测试是否具有构念效度。这种研究角度也是大多数综合测试的
研究角度。Choetal.(2013)研究了TOEFL鄄iBT听读写综合测试中听力输入和阅读输入的特
征与写作分数之间的关系,其中听力和阅读输入特征指其难易程度,通过问卷调查的方式获
得。结论是听力主题内容的清晰程度(distinctivenessofideas)和阅读文本主题内容的难易程
度(difficultyofideas)对写作分数的影响最大。Cubilo&Winke(2013)对比了两种输入模态
对写作的影响,一种是视听输入,另一种是单一的听力输入,结果显示两种模态并不会引起写
作质量的显著差别。Gebril&Plakans(2013)和Yu(2013a)则分析了写作产出的特征,以此
·6·
国外语言测试研究热点综述(2011—2015年)
推断哪些特征能够区分不同水平的考生
Wolfersberger(2013)用民族志的研究方法通过访谈和观察记录了四名中国留学生一次课
。
内综合写作任务的完成过程。Wolfersberger发现,不同于测试环境,课堂环境是一个师生共同
建构而且不断发展变化的社会环境。学生对任务的理解受多重因素影响,如教师反馈、同伴建
议、教师提供的范文等,而对任务的不同理解直接导致了写作分数的差异。因此作者提出应区
分测试环境下与课堂环境下综合写作测试的效度。Wolfersberger研究的不同之处在于:(1)以
课堂测试为研究对象,(2)完全用质性方法进行写作任务完成过程的个案研究,揭示了写作是
考生不断自我修正的动态过程。
上述研究主要探讨的是综合测试的构念和效度问题,即综合测试测的是什么,而除了“什
么冶之外,“怎么样冶和“为什么冶这些基本问题也亟待解决(Yu2013b:112)。目前综合测试研
究尚无清晰的理论框架
(2013)
。综合测试具有显而易见
难以区分考生的语言和原材料的语言
指出,综合测试的构念和评分标准需要更清晰的定义
的优势,同时也存在局限性。Cumming
;语言能力叠加使分数的解释复杂化
;综合测试的评分难度大
,如在读写综合测试
,评分员
中,阅读能力直接影响写作,考生可能需要达到一个语言和认知的门槛才可以参加综合测试。
因此,
3.
有效使用综合测试
虽然语言测试学者早就提出广泛使用的水平测试分数对改进教学的意义甚微
2.3诊断性评估
,除理论建构外,还需要更广泛的实证研究支持。
(Alderson
etal.1995),测试的利益相关者需要关于学习者长处和不足的具体信息,以便管理者能够据
此改进或设计新课程,课堂教师能够有针对性地开展教学(Lee&Sawaki2009)。诊断性评估
能够充当评估和学习之间的接口,评估提供的有意义的反馈能起到融合课程与教学的作用,从
而达到促进学习者发展的最终目的(Alderson2007;Kunnan&Jang2009)。虽然诊断性评估在
其它行业已经被广泛应用多年,但在二语教学上的研究还很不足,已有的研究主要集中在二语
写作的反馈研究上
(corrective
。Jang&Wagner(2014)指出,
最终的写作文本为研究对象
feedback),而其它类型的反馈研究不足
,忽略了学习者对反馈的认知加工过程
。
过去有关反馈的研究集中在纠错型反馈
过去的研究常常从结果入手
,忽略了学习者在反馈研究
,即以学习者
中的角色。Jang&Wagner(2014)还认为诊断性评估的重点应放在诊断学习者的能力与目标
能力之间的认知差距
认知诊断评估为研究主题
2015年Language
,即认知诊断评估
Testing
。Kim
刊发了一期诊断性评估专刊
(cognitivediagnostic
AY(2011)研究了EAP
。
assessment,
写作的诊断评估
五年间刊登的
CDA)。
9
。
篇文章中
研究者开发了一
,两篇以
个诊断清单,含35个描述性指标,包括5项写作子技能。评分员按照诊断清单对学生的写作
进行评估。研究者评估这种诊断方法能否准确区分不同水平的学生,并提出了一种包含诊断
信息的成绩报告方法。Kim(2015)研究阅读的认知诊断评估,先通过专家分析建立一个项目
与认知能力的矩阵模型,然后分析学生的答题情况得出学生总体的认知能力,并对比三个能力
群体(高、中、低)的认知能力分布情况,从而掌握学生的阅读认知能力差异。
上述两项研究探讨如何将已有测试用于诊断性评估。与此相似,Chapelleetal.(2015)
将自动作文评分系统用于诊断测试的效度验证
(Bachman
用于诊断评估的效度
&Palmer2010)
。Doe(2015)以“测试使用论证冶(AUA)
。将已有测试用于诊断评估的局限性在于能获得的诊断信息量受测试题
为框架,通过调查学生对测试反馈的使用来验证将某一高风险测试
目的限制,Alderson(2005)因此指出,理想的诊断性评估应该使用专门为诊断开发的测试。
·7·
外语测试与教学摇2018年第2期
Poehner
Poehner
etal.
et
(2015)
al.(2015)
在Vykotsky
和Koizumi
的社会文化理论指导下设计并实施了一项基于计算机的动
etal.(2011)均为诊断测试的开发和效度验证研究。
态评估,用互动的方法提供学生完成任务所需的中介(mediation),通过观察学生在每一道题上
所需的不同中介,诊断学生当前的能力水平,以及学生的最近发展区,用合作学习的方式实现
最近发展区内认知能力的内化。相比粗糙地将学习者划分为“能力掌握者冶和“能力未掌握
者冶,动态评估能够更精细地划分学习者,提供更具个性化的诊断信息,如学生距个体的最近
发展区还有多远。关于动态评估还有很多问题值得研究,例如:测试环境下评估者如何准确地
确定学习者的当前水平?什么样的中介更适合个体学习者?如何有效使用动态评估提供的诊
断信息?
值得关注的是Hardingetal.(2015)的文章,这篇文章在Aldersonetal.(2014)提出的诊
断性评估框架的基础上,提出了诊断性评估的五个原则和四个阶段,并以听力诊断测试的实施
为例证。四个阶段包括:观察、初始判断、假设检验、决策。诊断性评估的范围扩大,观察阶段
除教师观察,还可以是师生共同协商,或者学生自我评估;而假设检验可以利用测试工具,也可
以与专家进行协商诊断;决策既包括个体学生的诊断信息,也包括“治疗(treatment)冶方案,如
后续学习建议、教学大纲修订等。这项研究为课堂教师开展诊断性评估提供了框架,也为研究
者拓宽了思路。诊断性评估的过往研究都是从第三阶段(即寻找有效测试工具)开始,止于诊
断信息的提出,而Harding等人将大纲、课堂教学、评估与治疗统一到一个框架中。如何将诊
断转化成治疗
3.
,以及大纲、教学、评估与治疗的共生关系则是未来值得研究的问题。
课堂评估研究起源于教育界对测试的认识转变
2.4课堂评估
,即从学习评价(assessmentoflearning)到
促学评价(assessmentforlearning)的转变(Black&William1998;Hume&Coll2009)。作为一
种常见的形成性评价手段,课堂评估由任课教师在课堂中开展,时间和方式灵活。课堂评估与
教学密切相关,课堂评估信息可以及时反馈到教学中,达到促进教与学的目的。虽然教育界在
其它学科已开展了大量课堂评估研究(如Brookhart1997;Brookhart&Durkin2003),语言测试
领域也有学者系统地介绍过课堂评估
Leung
(如Rea鄄Dickins&Gardner2000;Harlen&Winter
章以课堂评估为研究主题
2004),但是总体而言
,可分为以下几种类型
,课堂评估研究仍然处于起步阶段
。
。五年间两本期刊共有7
2004;
篇文
第一种类型是常见主题在课堂环境下的研究。Chengetal.(2011)研究了我国香港地区
15%
最新引入的一项校本口语测试的反拨。这项校本测验的成绩占香港中学文凭考试成绩的
能力
,
。
虽然有终结性评价意义
这项测试由任课教师主导
,但是其根本目的是与课程融合
,一年举行多次,因此也可以被认为是课堂测试
,以考促学,培养学生的自我评价
。研究者通过
问卷调查了解这项测试对考生和家长这两个利益相关群体的影响,结果表明家长对测试的了
解越多
ersberger
,能给考生提供的支持也越多,对考生的影响则因考生的水平而异
试与高风险测试环境不同
(2013)用访谈和观察的方式研究了课堂环境中一项综合测试的效度
。前文提到的Wolf鄄
,测试构念也不同。此前反拨和测试构念研究主要针对大规模高风
,揭示了课堂测
险国家测试或国际测试,而对语言测试理论和实践至关重要的各个方面也同样适用于课堂评
估研究,课堂评估的设计和使用也应当有理据支持。
第二种类型是测试与学习研究。Huang(2010,2012,2015)发表的三篇文章涉及课堂评
估在听、说、写课堂上的应用。Huang(2010)对比了“聚合性评估冶(convergentassessment)和
·8·
国外语言测试研究热点综述(2011—2015年)
“
结论是学生受自我效能的影响对两种测试的反应不同
差异性评估冶(divergentassessment)两种评估方式下学生的策略使用和学习动机的差异性
,自我效能低的学生在差异性评估中的
,
学习动机强,策略使用多,自我效能高的学生在聚合性评估中的学习动机强,策略使用多。同
时,学生对听和说两种测试的反应亦不相同。Huang(2012)调查了师生是否认为课堂测试能
促进学习动机,质性研究结果显示师生普遍认同测试能激励学习。Huang(2015)用实验方
法,历时研究了当教师提供必要的支架(scaffolding)后,比如作文修改目标,学生的作文终稿和
初稿相比成绩能否提高。Huang的研究揭示了随着“促学评价冶在教育界的普及,当教师从自
上而下的标准化测试中解放出来,被赋予了更大的评价权力后,如何合理科学地设计测试、真
正促进学习成为了教师作为测试者需要认真对待的问题。
第三种类型从真实课堂评估过程入手,研究课堂评估的复杂性。Hill&McNamara(2012)
用民族志的质性研究方法,历时20周,深入课堂观察、录像、收集文件,建立了一个基于真实环
境的课堂评估研究框架。研究框架相比Rea鄄Dickins(2001)更宽泛,包括的数据更多。他们认
为教师做出关于学生表现的一切反馈都属于课堂评估范畴,无论是“计划的或是非计划的,有
意的或是无意的,显性的或是嵌入式的冶(Hill&McNamara2012:397)。研究旨在描述而非评
价真实状态下的课堂评估,研究框架还需要更多的实证检验。Cheng&Sun(2015)以中国初
中和高中英语教师为研究对象,用问卷调查的方法研究影响教师课堂评估的多重因素。结果
显示内部和外部因素均影响教师的评估,内部因素如教师评价素养,外部因素如班级规模、高
风险测试的压力等。研究揭示了社会、文化和教育环境对课堂评估的作用不容小觑,与测试构
念无关的因素,如学生的努力,常常亦会是教师进行课堂评估时考虑的因素,反映了课堂评估
的社会文化属性。
Davison
研究者在认可课堂评估价值的同时,也提出了对其“非理论性冶的质疑(Brookhart2004;
估研究缺乏理论基础
&Leung2009)。
,常常停留在教师个人经验的描述
“非理论性冶表现在课堂评估因教师的个体差异而千差万别
。尽管教育学研究者试图建立课堂评
;课堂评
估研究的理论框架(Brookhart2004),但是鉴于课堂环境的动态性和互动性,课堂评估仍然需
3.
要更多的理论建构
3总体特点和趋势
,语言教学的课堂评估也还需要更多的实证研究支持现有理论。
通过梳理五年间两本国际语言测试领域顶级期刊研究论文的研究方法、研究对象和研究
问题
vies2014),
,并结合2011年之前其他研究者所做的文献综述(Alderson&Banerjee2001,2002;Da鄄
观察五年间的研究发现定性研究和混合研究有增长的趋势
(1)质性研究方法增加
作者发现语言测试领域的研究呈现如下特点和趋势
。虽然定量研究方法仍然是国外语言测试实证研究的主流
。
,单一的量化研究在减少。在应用
,但是
语言学领域,文秋芳,林琳(2016)通过考察TESOLQuarterly期刊2001-2015年发表的265篇
实证研究的研究方法发现,15年间,质性方法超过定量方法的趋势保持不变。其原因是国外
研究者逐步认识到定量方法无法研究处于社会环境中动态的、复杂的人和事。语言测试作为
应用语言学的一个研究领域,也呈现同样的趋势。语言测试研究者对测试与人的互动、测试的
社会性等方面的认识逐步增加。随着研究主题不断丰富,研究方法日趋多样化,个案研究、民
族志研究
结合起来
(2)
、
,
从学习评价向促学评价转变
语篇分析等质性研究手段被越来越多的研究者所使用
从评估中获得有价值的信息
。
,用在评估后的教与学上
诊断性评估和课堂评估的意义都在于将评估与教学
。
。对诊断性评估和课堂评估的
·9·
外语测试与教学摇2018年第2期
研究热度显示了语言测试界从早期关注如何评价逐渐转向如何利用评价。学习评价关注的是
测试本身的效度,强调如何开发测试、如何有效区分考生,而促学评价关注的是对测试的使用,
强调如何利用测试结果达到促进教与学的最终目的
(1998)为代表的教育学者就大力倡导促学评价,在语言测试界促学评价则是最近几年才获得
。早在20世纪末,以Black&William
研究动势
sessment
,以Turner&Purpura(2016)提出的以学习为导向的评估框架(learning鄄orientedas鄄
者视角考虑在内
framework)
,对促学评价进行了理论建构
和Hill&McNamara(2012)
,可以预见未来将涌现一些基于这两个理论框架
提出的课堂评估框架为代表。两者都将学习
的实证研究
测试的利益相关者涉及一切与考试有关的人员
(3)针对广泛利益相关者的研究增加
。
。任何语言测试都在特定的社会环境中发生
,如测试开发者、教师、学生、家长、用人单位等
,语言
。
2010),
在大多数测试环境中,考生是最重要的利益相关者(Rea鄄Dickens1997;Bachman&Palmer
多的研究者将焦点转向考生
然而过去针对考生的研究却远远不足
,如课堂评估。除此之外
(Chenget
,考生反馈也开始被纳入大规模测试的设
al.2011)。可喜的是,在五年间越来越
计(Ockeyetal.2013;Kim&Elder2015)和评估(Chengetal.2011;Vongpumivitch2012)中。
还有研究以教师和家长为研究对象(Chengetal.2011;East2015),将广泛的利益相关者纳入
研究范围,显示了语言测试的社会性日益得到研究者的认可和关注,同时显示了语言测试界对
确保考试公平性和使用合理性所做出的努力。
4.结论
为了解国际语言测试领域近年关注的热点和趋势,本文以两本权威学术期刊2011—2015
年刊登的全部研究论文为研究对象,从研究方法、研究对象、研究问题三个层面进行了归类研
究。研究发现,定量方法虽然仍是国际语言测试研究的主流,但是质性方法有增长趋势;以英
语为外语或二语的测试和成人学习者仍然是研究的主要对象;五年间语言测试研究的角度多
样,虽有新涌现的研究热点,但大部分仍然是语言测试界长期关注的问题。本文重点分析了近
五年获得较多关注的四个热点研究问题,即评分员的评分行为、综合测试、诊断性评估和课堂
评估。对这四个问题的研究论文进行了批判性分析,对未来的研究方向进行了展望。总体来
看,国际语言测试正从学习评价向促学评价转变;语言测试研究者日益认可语言测试的社会属
性,开始将广泛的利益相关者纳入研究范畴。
经过半个多世纪的发展,语言测试已经发展成为一门独立的学科,专业化程度不断加深。
相比之下,中国外语测试的研究和实践起步晚,历史短。可喜的是越来越多的华人名字开始出
现在这两本期刊上。从作者的隶属机构看,由中国大陆作者独自或合作发表的文章有9篇,而
以拼音署名看,共有42篇文章由华人独立或合作完成。也就是说,两本期刊的209篇研究论
文中
Cheng
,华人作者以独立或合作的方式贡献了总数的1/5,并且在一些领域起到引领作用。如
文,分别聚焦反拨作用和课堂评估
与合作者(Chengetal.2011;
,使这两个领域受到越来越多测试学者的关注
Cheng&Sun2015)和Huang(2010,2012,
。
2015)
华人对语言
多次发
测试领域的贡献不可忽视,且有理由相信随着越来越多年轻学者的加入,华人的学术贡献还将
持续扩大。本文希望通过具体描述国际语言测试的最新焦点,帮助国内研究者了解国际趋势,
并肩国外研究者,走在学术前沿。
·10·
国外语言测试研究热点综述(2011—2015年)
参考文献
[1]Alderson
London:Continuum,
sing
2005.
ForeignLanguageProficiency押TheInterfacebetweenLearningandAssessment[M].
[2]Alderson
Wesche
llengeof(diagnostic)testing:Doweknowwhatwearemeasuring?[A].
[3]
University
M,
AldersonJ
of
Bayliss
C
Ottawa
D,
&Banerjee
Press,
Cheng
J.
2007.
L,Turner
Stateof
21-39.
C&DoeC(Eds.).LanguageTestingReconsidered[C].
In
Ottawa:
FoxJ,
Teaching,2001,34:213-236.
theartreview:Languagetestingandassessment(part1)[J].Language
[4]
Teaching
Alderson
,
J
2002,
C&Banerjee
35:79-113.
ftheartreview:Languagetestingandassessment(part2)[J].Language
[5]Alderson
ment:Insights
JC,Brunfaut
fromprofessional
T&Harding
practice
s
acrossdiverse
atheory
fields
ofdiagnosis
[J].Applied
insecond
Linguistics
andforeign
,2014,
language
36:236-260.
assess鄄
[6]Alderson
bridgeUniversity
JC,Clapham
Press,
C
1995.
&geTestingConstructionandEvaluation[M].Cambridge:Cam鄄
[7]
[8]
Bachman
BakerBA.
LF
Individual
&Palmer
differences
ge
inrater
Assessment
decision鄄making
inPractice[M].Oxford:OxfordUniversityPress,2010.
Language
K.
Assessment
Usingmultilevel
Quarterly
modelling
,2012,9(3):
inlanguage
225-248.
style:Anexploratorymixed鄄methodsstudy[J].
[9]
guage
Barkaoui
AssessmentQuarterly,2013,10(3):241-273.
assessmentresearch:Aconceptualintroduction[J].Lan鄄
[10]
Practice
BlackP
,
&
1998,
William
(1):
D.
7-74.
Assessmentandclassroomlearning[J].AssessmentinEducation押Principles熏Policy&
[11]Brookhart
achievement
SM.
[J].
Atheoretical
AppliedMeasurement
framework
in
for
Education
therole
,
of
1997,
classroom
(2):
assessment
161-180.
inmotivatingstudenteffortand
[12]Brookhart
Record,2004,
SM.
106(3):
Classroom
429-458.
assessment:Tensionsandinteractionsintheoryandpractice[J].TeachersCollege
[13]Brookhart
cialstudies
S
classes
M&Durkin
[J].
D
Applied
oom
Measurement
assessment,
inEducation
student
,2003,
motivation,
(1):27-54.
andachievementinhighschoolso鄄
[14]Cai
sessment
HW.
Quarterly
Weight鄄based
,2015,
classification
12(3):262-282.
ofratersandratercognitioninanEFLspeakingtest[J].LanguageAs鄄
[15]Carey
ingin
M
oral
D,
proficiency
MannelR
interviews?
H&DunnP
[J].
Language
arater蒺s
Testing
familiarity
,2011,
with
28(2):
acandidate蒺s
201-219.
pronunciationaffecttherat鄄
[16]Chapelle
ation[J].
CA,
Language
CotosE
Testing
&Lee
,
J
2015,
ty
32(3):
arguments
385-405.
fordiagnosticassessmentusingautomatedwritingevalu鄄
[17]Chen
2014,
F
31(1):
&Chalhoub鄄Deville
63-87.
plesofquantileregressionandanapplication[J].LanguageTesting,
[18]Cheng
parents蒺
L,
views
Andrews
ofSBA
S&
in
Yu
Hong
Y.
Kong
Impact
[J].
and
Language
consequences
Testing
of
,
school鄄based
2011,28(2):
assessment
221-249.
(SBA):Students蒺and
[19]Cheng
guageAssessment
L&SunY.
Quarterly
Teachers蒺
,2015,
grading
12(2):
decision
213-233.
making:Multipleinfluencingfactorsandmethods[J].Lan鄄
[20]Cho
iBT
TM
Y,
integrated
RijmenF
writing
&Nov佗k
tasks
J.
[J].
Investigating
Language
the
Testing
effects
,
of
2013,
prompt
30(4):
characteristics
513-534.
onthecomparabilityofTOEFL
[21]CrossleyS,ClevingerA&eoflexicalpropertiesandcohesivedevicesintextintegration
·11·
and
外语测试与教学摇2018年第2期
their
-270.
effectonhumanratingsofspeakingproficiency[J].LanguageAssessmentQuarterly,2014,11(3):250
[22]Cubilo
impacts
J
of
&
visual鄄cue
WinkeP.
interpretation
Redefiningthe
and
L2
note鄄taking
listeningconstruct
[J].Language
withinan
Assessment
integrated
Quarterly
writing
,
task:
2013,
Considering
10(4):371-
the
[23]
397.
51.
iseinevaluatingsecondlanguagecompositions[J].LanguageTesting,1990,7(1):31-
[24]
18.
ning,deepeningandconsolidating[J].LanguageAssessmentQuarterly,2004,1(1):5-
[25]Cumming
sessmentQuarterly
ing
,2013,
integrated
10(1):
writing
1-8.
tasksforacademicpurposes:Promisesandperils[J].LanguageAs鄄
[26]Cumming
framework
A,
[J].
Kantor
Modern
R&
Language
PowersD
Journal
on
,2002,
making
86(1):
while
67-96.
ratingESL/EFLwritingtasks:Adescriptive
[27]Davies
sessment
A.
Vol.
Fifty
I[C].
yearsof
Chichester:
languageassessment
WileyBlackwell,
[A].In
2014.
Kunnan
3-16.
AJ(Ed.).TheCompaniontoLanguageAs鄄
[28]Davison
2009,43(3):
C&Leung
393-415.
tissuesinEnglishlanguageteacher鄄basedassessment[J].TESOLQuarterly,
[29]Doe
110-135.
tinterpretationsofdiagnosticfeedback[J].LanguageAssessmentQuarterly,2015,12(1):
[30]East
reform
M.
[J].
Coming
Language
toterms
Testing
with
,
innovative
2015,32(1):
high鄄stakes
101-120.
assessmentpractice:Teachers蒺viewpointsonassessment
[31]Eckes
Language
Testing
types
,2008,
inwriting
25(2):
performance
155-185.
assessments:Aclassificationapproachtoratervariability[J].
[32]Eckes
guage
T.
Assessment
Operational
Quarterly
rater
,
types
2012,
in
9(3):
writing
270-292.
assessment:Linkingratercognitiontoraterbehavior[J].Lan鄄
[33]Elder
work?
C,
[J].
Knoch
Language
U,Barkhuizen
Assessment
G
Quarterly
&vonRandow
,2005,
J.
2(3):
Individual
175-196.
feedbacktoenhanceratertraining:Doesit
[34]Frost
course鄄based
K,ElderC&igatingthevalidityofanintegratedlistening鄄speakingtask:Adis鄄
[35]GebrilA&Plakans
analysis
L.
of
Toward
testtakers蒺
atransparent
oralperformances
construct
[J].
ofreading鄄to鄄write
LanguageTesting
tasks:
,2012,
The
29(3):
interface
345-369.
coursefeaturesandproficiency[J].LanguageAssessmentQuarterly,2013,10(1):9-27.
betweendis鄄
[36]Gui
[J].
M.
Language
Exploring
Assessment
differences
Quarterly
between
,2012,
Chinese
9(2):
andAmerican
186-203.
EFLteachers蒺evaluationsofspeechperformance
[37]Harding
theOET
L,
[J].
Pill
Language
J&Ryan
Assessment
or
Quarterly
decision
,2011,
making
8(2):
whilemarking
108-126.
anote鄄takinglisteningtest:Thecaseof
[38]Harding
language:
L,
Elaborating
AldersonJ
on
C&
diagnostic
Brunfaut
principles
stic
[J].
assessment
LanguageTesting
ofreading
,2015,
andlistening
32(3):317-336.
inasecondorforeign
[39]Harlen
mathematics
W&
[J].
Winter
Language
elopment
Testing,2004,
of
21(3):
assessment
390-408.
forlearning:Learningfromthecaseofscienceand
[40]Hill
based
K
assessment
&McNamara
[J].
T.
Language
Developing
Testing
acomprehensive,
,2012,9(3):
empirically鄄based
395-420.
researchframeworkforclassroom鄄
[41]Huang
learning
S.
strategies
Convergent
[J].
vs.
Language
divergent
Testing
assessment:
,2010,
Impact
28(2):
oncollege
251-271.
EFLstudents蒺motivationandself鄄regulated
·12·
国外语言测试研究热点综述(2011—2015年)
[42]Huang
university
g
[J].Language
learners
Assessment
toworkthrough
Quarterly
tests
,
and
2012,
marks:
9(1):
Motivating
60-77.
ordemotivating?AcaseinaTaiwanese
[43]Huang
2015,12(4):
g
363-385.
writingrevisiongoalsafterassessmentforlearning[J].LanguageAssessmentQuarterly,
[44]Hume
Assessment
A&
in
Coll
Education押
ment
Principles熏
of
Policy
learning,
&Practice
forlearning,
,2009,
and
(3):
aslearning:
269-290.
NewZealandcasestudies[J].
[45]Jang
Language
EE&
Assessment
WagnerM.
[C].
Diagnostic
Chichester:
feedback
Wiley
in
Blackwell,
theclassroom
2014.
[A].
693-711.
InKunnanAJ(Ed.).TheCompanionto
[46]Jin
[J].
T,
Language
MakB&
Testing
Zhou
,
P.
2012,
Confidence
29(1):
scoring
43-65.
ofspeakingperformance:Howdoesfuzzinessbecomeexact?
[47]Kang
teaching
O.
assistants蒺
Impactofrater
oralperformance
characteristics
[J].
and
Language
prosodicfeatures
Assessment
ofspeaker
Quarterly
accentedness
,2012,9(3):
onratings
249-269.
ofinternational
[48]Kim
sessment
AY.
of
Exploring
L2reading
ways
ability
toprovide
[J].Language
diagnostic
Testing
feedback
,2015,
withan
32
ESL
(2):
placement
227-258.
test:Cognitivediagnosticas鄄
[49]Kim
Quarterly
HJ.
,
A
2015,
qualitative
12(3):
analysis
239-261.
ofraterbehavioronanL2speakingassessment[J].LanguageAssessment
[50]Kim
Testing
Y
,
H.
2011,
Diagnosing
28(4):
EAP
509-541.
writingabilityusingtheReducedReparameterizedUnifiedModel[J].Language
[51]Kim
Language
H&Elder
Testing
C.
,2015,
Interrogating
32(2):
the
129-149.
constructofaviationEnglish:FeedbackfromtesttakersinKorea[J].
[52]Knoch
[J].Language
igating
Testing,
the
2011,
effectiveness
28(2):
of
179-200.
individualizedfeedbacktoratingbehavior—Alongitudinalstudy
[53]Koizumi
grammar
R,Sakai
test
H,
for
Ido
Japanese
T,Ota
learners
H,Hayama
ofEnglish
M,Sato
[J].
M&
Language
NemotoA.
Assessment
Development
Quarterly
and
,
validation
2011,8(1):
ofadiag鄄
[54]
72.
nostic53-
(Eds.).
KunnanA
The
J&
Handbook
JangEE.
ofLanguage
Diagnostic
Teaching
feedback
[C]
inlanguage
Malden:
assessment
Blackwell,
[
2009.
A].In
610-627.
LongMH&DoughtyCJ
[55]
Quarterly
LeeY鄄W
,
&
2009,
Sawaki
6(3):
ive
169-171.
diagnosisandQ鄄matricesinlanguageassessment[J].LanguageAssessment
[56]Leung
mentQuarterly
ping
,2004,
formative
1(1):19-41.
teacherassessment:Knowledge,practice,andchange[J].LanguageAssess鄄
[57]elopment
experienced
and
raters
maintenance
[J].Language
ofrating
Testing
quality
,
in
2011,
performance
28(4):
writing
543-560.
assessment:Alongitudinal
[58]
[59]
McNamara
studyofnew
MilanovicM,
T
and
F.
Saville
Measuring
N&Shen
Second
S.
Language
Astudyof
Performance
thedecision鄄making
[M].London:
behaviour
Addison
ofcomposition
WesleyLongman,
markers[A].
1996.
In
[60]Moere
15th
Milanovic
Language
M&
Testing
Saville
Research
N(Eds.).
Colloquium
Performance
[C].
Testing
Cambridge:
,Cognition
Cambridge
andAssessment
University
:
Press,
Selected
1996.
Papers
92-114.
fromthe
325-344.
olinguisticapproachtoorallanguageassessment[J].LanguageTesting,2012,29(3):
[61]Ockey
locutor
G
familiarity
J,Koyama
facet
D&
of
Setoguchi
thegroup
E.
oral
Stakeholder
discussion
input
test[J].
andtest
Language
design:
Assessment
Acasestudy
Quarterly
onchanging
,2013,
the
10(3):
inter鄄
[62]
292-308.
O蒺SullivanB&ingthevalueofbiasanalysisfeedbacktoratersfortheIELTSwriting
·
module
13·
外语测试与教学摇2018年第2期
[
2007.
A].In
446-476.
TaylorL&FalveyP(Eds.).IELTSCollectedPapers[C].Cambridge:CambridgeUniversityPress,
[63]
cording
Poehner
to
M
learner
E,Zhang
So,
responsiveness
J&LuX.
whydoweneed
to
Computerized
mediation
relationships
[J].
dynamic
with
Language
assessment
stakeholders
Testing
(C鄄DA):
in
,2015,
language
32(3):
Diagnosing
testing?
337-357.
L2developmentac鄄
[64]
[J].
Rea鄄Dickens
Language
P.
Testing,1997,14(3):304-314.
AviewfromtheUK
[65]
ting
Rea鄄Dickins
,2001,18(4):
,
429-462.
mirroronthewall:Identifyingprocessesofclassroomassessment[J].LanguageTes鄄
[66]Rea鄄Dickins
[J].Language
P&
Testing
Gardner
,2000,
17(2):
and
215-243.
silverbullets:Disentanglingtheconstructofformativeassessment
[67]Shaw
Cambridge:
SD&
Cambridge
ing
UniversityPress,
Writing押
2007.
ResearchandPracticeinAssessingSecondLanguageWriting[M].
[68]TurnerCE&ng鄄orientedassessmentinsecondandforeignlanguageclassrooms[A].In
[69]Vongpumivitch
255-272.
TsagariD&BaneerjeeJ(Eds.).HandbookofSecondLanguageAssessment[C].Boston:DeGruyter,2016.
EnglishProficiency
ting
Test[J].
lifelong
Language
learning
Assessment
ofEnglish?
Quarterly
Test
,
takers蒺
2012,
perceptions
9(1):26-59.
ofthesuccessoftheGeneral
[70]Wei
ingtasks
J&Llosa
[J].
L.
Language
Investigating
Assessment
differences
Quarterly
between
,2015,
American
12(3):
and
283-304.
IndianratersinassessingTOEFLiBTspeak鄄
[71]Winke
[J].Language
P,GassS
Testing
&Myford
,2013,
蒺
30(2):
L2
231-252.
backgroundasapotentialsourceofbiasinratingoralperformance
[72]Wolfersberger
representation
M.
[J].
Refining
Language
the
Assessment
constructof
Quarterly
classroom鄄based
,2013,10(1):
writing鄄from鄄readings
49-72.
assessment:Theroleoftask
[73]Yu
terly
G.
,2013a,
Theuse
10(1):
ofsummarization
96-109.
tasks:Somelexicalandconceptualanalyses[J].LanguageAssessmentQuar鄄
[74]Yu
2013b,
10(1):
integrative
110-114.
tointegratedassessment:Arewethereyet?[J].LanguageAssessmentQuarterly,
[75]Zhang
Competing
Y&
or
Elder
complementary
nts
constructs?
oforalproficiency
[J].Language
bynon鄄native
Testing,
and
2011,
native
28(1):
English
31-50.
speakingteacherraters:
[76]
[77]
韩宝成,罗凯洲.语言测试效度及其验证模式的嬗变[J].外语教学与研究,
[78]
李清华
[79]
梁茂成
.语言测试之效度理论发展五十年[J].现代外语,2006,(1):87-95.
2013,(3):411-425.
[80]
林敦来
,
刘建达
,
文秋芳
.
武尊民
.
现代技术与语言测试
.
国外自动作文评分系统评述与启示
国外语言评价素养研究的最新进展
[J].外语电化教学,2007,(5):18-24.
———应用、影响及发展方向
[J].
[J].
现代外语
外语电化教学
,2014,(5):
,2013,
711-720.
[81]
(4):46-51.
[82]
梅昳
[83]
田文燕
,聂建中
[84]
文秋芳
.
,林琳
国外计算机化语言测试现状综述
.语言测试伦理研究问题述评
.2001-2015年应用语言学研究方法的使用趋势
[J].
[J].
外语界
外语界
,
,
2006,
2009,
[J].
(5):
(4):
现代外语
68-74.
91-96.
,2016,(6):842-852.
[85]
胥云
2015,
郑宇静
,武尊民
(2):
,辜向东
.国外考试策略研究综述
58-63.
.从有效测试到有效使用
——
:《
—
语言评测季刊
五十年回顾[J].
》十年名家访谈录启示
外语教学理论与实践
[J].
,2011,
外语与外语教学
(1):43-51.
,
作者联系方式:北京信息科技大学外国语学院,北京100192
·14·
版权声明:本文标题:国外语言测试研究热点综述(2011—2015年) 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1712888440a611018.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论