托福口语如何评分

若水1147 分享 时间:

今天小编带大家来了解托福口语的评分过程?我们一起来看看吧,下面小编就和大家分享,来欣赏一下吧。

托福口语如何评分

一.托福口语的评分过程

和托福阅读、听力的客观评分不同,口语、写作都有主观评分参与,其牵扯到的人工费用很高,这无疑增加了ETS的运营成本。

很多同学会说托福报名费很高的!但目前考试报名费的1900+元,并不是ETS都拿走了,实际上要分一部分给国内教育考试管理部门、组织考试的学校考场、考试的推广费用,剩下拿到ETS手里的真不多了。随着考生的数量愈加扩大,人工判分的需求量自然暴增,无疑:机评代替人评是大势所趋,技术服务于需求。

从2006年开始,ETS推广iBT考试以来,一直把机评引擎的开发放在战略重点,每年都有各种论文和数据研究发表在世界级核心期刊上。2006年开始之初,机评引擎处于数据搜集期,2010年以后人评、机评校对过渡期,直到现在机评为主、人评为辅的应用期,ETS已经走过了十多年的自然语言识别研发路。

传统的口语的评分要经历三次人工:

1. 先由第一位rater判一个初始分(4分制原始分)

2. 再由第二位rater判一个校对分(4分制原始分)

3. 如果第二位和第一位的判分差在1分以内(4分制)则二者取平均换算成30分制的成绩Scaled Score

4. 如果第二位和第一位的判分差超过1分,则由第三位rater(administration老大级)进行终判。

可想而知ETS的人工投入成本之高,单靠那点报名费真的是捉襟见肘,技术服务于需求——机评势在必行:

1. ETS总部的SpeechRater引擎(不是给合作机构共享的阉割版)机评判分(4分制原始分)

2. 由人工按照10%的比例抽检

机评的应用使得人工成本骤减。很多同学会觉得自己被ETS的官方Rater评分是不是更占便宜,实际未必,因为人工判分工作负荷大,体力和脑力都是巨大挑战,很可能同一个rater在不同时间段打分会因为身体状况而有波动。

但机评就不会出现人工打分因工作量巨大而导致打分不稳定的问题。总之,无论你现在接不接受机评,ETS都坚信:人工智能机评——真香!

那问题来了,机评和人评的误差是多少,机评靠谱吗?

二、机评和人评的误差对比

SpeechRater是世界上应用最广泛的英语口语测评系统之一,从2006年开始就内嵌在托福评分系统中(当时刚启动iBT考试,机评的主要任务先要喂数据),因为ETS自己就是测试模型的设计人,所以SpeechRater针对托福口语做了特别优化。

虽然市面上大家也能看到很多自称能给托福口语打分的APP或ETS合作授权版本,但趋于算法迭代版本和数据样本量的限制,顶多能对语速和输出量进行评估,还远远无法达到SpeechRater总部机评对托福答题进行质量鉴定的能力。

ETS在经过了2006-2015年整10年的数据积累,并经过人工打分校对不断优化机评打分容差,尤其伴随着2015年内嵌入神经网络学习,机评准确度已经达到82%以上。而且机评稳定性要远远高于人评,人总是有情绪的:短期内大量评分,体能损耗,情绪波动会影响评分的公允,对考生和测试系统的完善都不利。

所以,我们可以这样理解,机评介入后,即便你申请口语复议,也可能维持原判,甚至减分(人工复议会对答题逻辑内容要求更苛刻),即便机评的第一遍打分,你被打低了一分,复议确认机评校对,也就任务单项提高一分。举例:

比如口语6道题,小明分别得分:2, 2, 3, 3, 2, 3(4分制原始分),把6道题的分数相加除以6得到口语2.5分(4分制原始分),换算口语19分。

如果小明申请复议,Task 1提了1分(4分制原始分),小明分别得分: 3, 2, 3, 3, 2, 3(4分制原始分),把6道题的分数相加除以6得到口语2.66分(4分制原始分),换算口语20分(原始分的换算)。

也就是千辛万苦复议过后的小明从19分提了1分到20分。算一笔账,有这个闲工夫复议较真,还不如仔细研究一下评分规则和机评算法结构,让机评给我们的口语分打高点更省心。

三、托福口语的评分规则

ETS口语评分的规则是根据 Lyle F. Bachman 和 Adrian S. Palmer 在 Language Testing in Practice——Designing and Developing Useful Language Tests 论文中的要点为测试模型设计基础:衡量Communicative competence的 Rubric dimensions包括:

Fluency输出流利, Pronunciation发音正确, Prosody声韵, Vocabulary Range口语词汇量, Sophistication句型复杂度, Grammatical Accuracy and Complexity语法正确和复杂度, Content内容丰富, Aspects of Discourse辩论推理。

因为ETS设计的托福测试模型受众并非是语言专业人群,所以上述规则被精简为:Fluency, Pronunciation, Prosody, Vocabulary Usage, Grammatical Expression, and Content. 由此归类为托福口语评分的三大规则:

1. Delivery传递表达:

(1)口齿清晰(日常说话舌头懒很吃亏)

(2)答题连贯(超过3秒卡壳就算不连贯)

(3)发音准确(元音、辅音的唇齿舌配合到位,ETS不奢求你像native speaker一样地道)

(4)节奏自然(不要忽快忽慢,背忘词了很尴尬)

(5)语音语调(有抑扬顿挫切忌语调平平)

注:这部分的训练方法,《清北托福备考联盟慕课——口语篇》(腾讯教育、B站公开课均可搜)中有提供;另外一篇知乎的答题在 3 个月之内准备托福,想要达到 100+数据模型报告中我也有列出了免费学习资源。

2. Language Use语言应用:

(1)语汇使用恰当多样(先恰当再多样)

(2)句型灵活搭配(状定同位语分词运用自如)

(3)语法无误(中国同学常犯单复数、冠词、主谓时态等问题)

注:到底怎样的词汇输出才能达到要求,我们还是以ETS的发表论文数据为参考,下表中ETS给出了独立任务和综合任务的Good Level满分级别的数据统计(下图红框)。

满分独立任务答题实际输出词100词就足够拿到满分;满分综合任务答题实际输出词约138词就足够拿到满分。在这些满分口语答题中,82%都是GSL 1K(General Service List)级别的基础词汇,而GSL 2K级别的高级词汇仅占4%-5%

3. Development论述拓展:

(1)观点明确回应题目(机评可以鉴别是否跑题)

(2)例证拓展细节丰富(通过神经网络学习,机评可以通过采样对比判断内容拓展是否达标)

(3)答题时间分配合理(如果答完一看还差5秒才到时间,就是时间分配不合理;当然允许超时,前提是已经足够论述,即便超时也无大防碍)

注:这部分的训练方法,《清北托福备考联盟慕课——口语篇》中有提供(腾讯教育、B站公开课均可搜);对于综合任务的笔记训练方法,可以在托福听力的练习过程中一起练快速笔记复述,不一定只抓着口语练笔记,要充分榨干每一套题的练习潜力。

四、口语机评的模组解析

1. Spoken Response,首先接收考场里的音频信号。我们答题的音频并不是平时听歌曲的CD音质,而是采样率较低的电话音质,所以这对我们答题时的环境有一定的要求。比如特别吵杂(旁边一堆人激励哇啦使劲喊着答题),或者答题人喜欢挨着话筒非常近喷麦(气流的传导声),都会影响音频信号的上传质量。所以,国内的同学们要注意考场文明答题,大声喊着答题不但对别的同学造成噪音干扰,而且自己的麦克风收音也会因喷麦爆掉。

2. ASR(Automatic Speech Recognition),然后进行第一步音频信号识别。在Signal Processing中,那些口齿不清晰、发音不标准的音频都会被标记为识别失败,这就跟写作系统的e-rater原理一样,一句话如果主谓宾单词都拼错了,机器只能判定本句作废;同理:因为口语发音不到位导致引擎无法识别发音信号,即便答了100个词,也可能因为识别不出而判定某句作废。目前SpeechRater的引擎辩音识别度能够达到95%以上的准确识别率,可以完全替代人工24小时不间断地投入工作。

3. Feature Generator

这分为两项,一项是Scoring Features,就是把识别出来的语音信号按照评分原则逐项评级;同步进行的是Similarity Features,就是作弊查重。ETS喂了很多数据给这个“作弊查重”模组,尤其对于大陆同学广为流传的:“20G\30G 托福资料网盘转发”或者“某金80题”等烂遍街的转发材料,ETS都可以直接把这些朋友圈满天飞的内容导入模组,查重属实自动判定0分也不再给与复议资格。

趋于本文的篇幅和读者受众是考生为主,这里就不再赘述晦涩的Feature Computation Modules迭代。

4. Filtering Model,这是在SpeechRater的历次升级中,提升最显著的模组,用于过滤掉无效答题内容:non-scorable (NS) responses。可以理解为,考生自认为有用的内容,但实际上蛋用没有。对于国内同学来说,最常见的比如:中文作答,唱一首歌,背一段新概念第三册短文,亦或是在自己的答题中加入自认为很“洋气”的词,诸如:Well…, You know…, when we are talking about…, I believe this is a thought provoking question… 这些不知道是谁教给你的但实际上会被Filter Model模组直接过滤掉的信息,根本不会进入Scoring Model,对提分蛋用没有。

5. Scoring Model

在经过了对不清晰发音信号、无效答题信息、查重抄袭嫌疑的一系列数据过滤后,能够进入到打分模型的肯定不是同学们在答题时自己感觉的那样:我感觉挺好啊,我说的很流利啊,我语速不错啊,我答完了啊。

趋于本文的篇幅和读者受众是考生为主,这里不再赘述Multiple Regression Scoring Model的迭代,只需提醒一点,借助人工智能在这两年的突飞猛进,SpeechRater评分的人工校对准确率从73%提高到了82%。

尤其是Delivery和Language Use两项在配备了Filtering Model的深度学习后,可以准确判定70%的考生被刷在23分以下了:如果你的分数在22分及以下,大可不必操心复议提分,因为你已经没有资格享受人工判分的机会了,人工也听不懂这娃到底在嘟哝些啥。

五、机评数据的启示

1. 哪个数据处理环节把考生分数拉开了上断崖式差距?从ETS公布的数据来看,西方国家的口语成绩普遍高于东方国家,并不是语速快或者说得多,而是机评采样中西方人的Delivery和Language Use两项评级明显占优——西方同学发音大都清晰、流畅、语法正确率非常高。所以三大评分规则中的前两项都明显占优,自然口语评分就秒杀东亚的同学了。

2. 网上流传的各种很“洋气”的答题段子有用吗?在SpeechRater的初期发展中只能关注发音和流利度的测定,的确在没有加入Filtering Model的深度学习前比较弱鸡。但现在借助于DEEP Neural Networks和Graphics Processing Units,辅助于人工抽检已经有越来越高的鉴别率了,查到就是0分。想靠烂遍朋友圈的“20G资料”和所谓“..金模板”照抄伎俩万万不要再有了。

3. “有人说”托福成绩会压分,是真的吗?先问自己三个问题:你是何方神圣让ETS特别关照你?SpeechRater跟你结过梁子有仇吗?“有些人”是“哪些人”,贴过115+的成绩单吗?这个“有些人”“网上说”“据相关人士透露”的说辞,大都来自于这一群体:考试过百很难,自己永远没错,世界跟他有仇,随处散发负能量。

附:一位托福口语高分案例研究。在《清北托福备考联盟慕课——口语篇》的讲义附件材料里,有一位参加托福考试时16岁的高二女生,一战口语21经过82天的量化备考,二战口语27。我们一起详细记录了整个备考过程每一天的量化指标统计和分析。高分案例摆出数据,科学备考事半功倍。

2019年10月12日托福口语考试真题及答案

Task1

(重复2016年4月9日真题)

Some people spend their vacation visiting just one place. Others prefer to spend their vacation visiting several different places and spending a shorter amount o time in each. Which do you prefer and why.

去一个陌生的地方旅游,是大部分时间待在一个城市还是去逛很多地方

Task2

学校应该在美术教学楼里建个cafe。课间学生们可以买咖啡,还可以看艺术生的工艺品。女生表示支持,现在的咖啡屋太远不方便,新的可以方便学生上课,还可以欣赏艺术生花心思的作品。

Task3

(重复2016年5月29日/2014年3月22日真题)

false signaling。动物如何用假信号,化学信号吸引捕捉其它动物。听力中教授用spider和moth做例子spider release a chemical to mimic the female moth. male moth follows the scent released by spider, and then trapped on the spider's net。蛾和蜘蛛,蜘蛛散发雄蛾交配的同样的物质吸引雌蛾进而捕食

Task4

一个新的发现考古遗址的技术,加快了速度,减少时间。且提供了更多细节,找到之前没发现的sites。

【版本2】

Task1

If you are going to travel to a new country for a week, do you prefer to travel to a major city in the country or to several different places?

Task2

阅读:学生建议学校在艺术楼开咖啡吧方便同学们在课间买东西也能吸引人来看学生艺术展

听力:Agree

原因1:现在的咖啡屋太远了,不方便

原因2:可以方便学生上课,还可以欣赏艺术生花心思的作品

Task3

术语解释:false signal,捕食者会伪装其他动物发出的求偶化学物质去吸引猎物把它们吃掉 。

Task4

新的技术对绘制考古地图的两个优点

优点1:提高绘制速度

优点2:能绘制更多的细节

2019年7月6日托福口语考试真题及答案

Task 1

Your university has decided to build a new space near students’ dormitory buildings. Which of the following space do you think your university should build most? And why?

1. café

2. game room

3. study room

Task 2

Some students believe that students should choose what courses to study, other students believe that students’ professor should make the decision for students. Which opinion do you support and why?

Task 3

学校要在官网上提供visual Campus Tour, 想申请这个学校的学生就可以在线访校,此外 也可以用这个了解学校周围的popular sites。

听力:女生同意。

第一,有些人因为没有时间没有钱,或者像她一样是international Student,不方便访校。这个功能能给他们提供对学校的 更全面的认知,所以可以更好地选择。

第二,新生也可以用这个找校园里的休闲娱乐。

Task 4

autoinhibit

教授的例子是一种叫hize的植物,这种植物的种子非常小和轻,可以随风飘到很多地方发芽,在这种植物旁边的种子都长不好,研究后发现这种植物会产生一种有毒物质,阻止别的植物种子发芽,所以full grown的那些就可以享有更多资源。

Task 5

女生major in business,但是需要选一门科学课。

两个选择:

1. 女生有一个感兴趣的课程是animal,但是时间在晚上9点,而自己当天早上8点有课, 不得不在学校待一天。

2.她不喜欢物理课,但是上课教室正好在早上8点的课程教室旁边,而且上课时间正好在早上8点的课程结束后,她怕自己表现不好,但也许可以尝试喜欢物理。

Task 6

service guarantee 对business的好处

第一:更多customer,更多同类竞争优势。

例子:教授去纽约定了一个很贵的酒店,酒店保证如果不满意可以免费住一天。

第二:可以收到comment,用来提升服务,人在不满意的时候更容易提出意见。

例子:教授在网站上看有人抱怨酒店的枕头,他们就improve给了extra的枕头。

推荐阅读:

2019托福听力注意事项

如何突破托福词汇难点

托福阅读考试审题技巧

怎样积累托福写作素材

托福口语如何评分

将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档文档为doc格式
280529