Duolingo的人工智能驱动其英语水平测试

语言学习创业公司Duolingo利用人工智能和机器学习自动创建和评分英语水平测试,揭示了一篇发表在计算语言学协会学报上的论文。 在这份报告中,研究人员揭开了杜林戈英语考试(Duolingo English Test)中的一系列算法的帷幕,这项$为49小时的家庭评估,目前已被2000多个大学项目所接受,其中包括哥伦比亚大学


像Duolingo这样的人工智能生成的测试对于那些希望在大流行期间雇佣英语即二语(ESL)候选人的雇主来说可能是天赐良机。 熟练程度的评估,如英语作为外语考试(托福),要求考生前往一个受限制的地点,这是一个困难的要求,在国家的行政命令已授权关闭非必要的业务。 也许不出所料,多林戈的一位发言人说,测试量在全球和中国分别增长了300%和375%,自大流行开始以来,500个新项目开始接受多林戈英语测试。

作为论文的共同作者,多林戈英语测试借鉴了心理测量学中的项目反应理论,设计和评分测试者的能力。 它是大多数高风险现代标准化测试的基础,它假设对测试项目(即测试项目)的响应。 问题)由一个离散表示考生能力和问题难度的函数建模。 对于Duolingo来说,这一范式非常适合于目标是估计能力和难度等变量的任务;问题可以与受试者一起创建和测试,以产生对(检查、问题)分级的“正确”或“不正确”,从中可以导出预测未来考生能力的参数。

计算机适应测试(CAT)技术使多林戈能够设计一个更有效的语言测试,通过分配更难的问题,测试者的能力更高,反之亦然。 一种迭代自适应算法在测试过程中观察考生对问题的反应,并对他们的能力进行估计。 根据当前估计值的效用函数,它然后选择下一个问题,此时过程重复,直到测试完成。

对于Duolingo英语考试,Duolingo设计了一个100分的评分系统,与欧洲共同参考框架(CEFR)相对应,这是描述外语学习者阅读、写作、听力和口语技能熟练程度的国际标准。 然后,该公司的研究人员纳入了一系列不同的测试格式,包括:

为了追求词汇测试的算法,可以按难度对问题进行排序,以便在整个熟练程度测试中的问题序列可以根据能力进行调整,多林戈有一个语言学小组Ph.D.s有英语教学经验,编制了一份由CEFR级别标记的单词清单(从“初学者/突破”到“熟练/大师”)。 他们将这个语料库输入人工智能模型来训练它们,他们报告说,这些模型最终了解到,高级单词-甚至是伪词-更罕见,而且大多具有Greco-Latin的词源,而基本词是常见的,而且大多来自盎格鲁-撒克逊语。

对于c-test,Duolingo利用了从在线来源收集的一系列语料库-包括英语自学网站、英语水平考试的测试准备资源、为简单英语重写的英语维基百科文章和众包英语句子数据库Tatoeba-以及回归和排名技术来构建更长形式的人工智能模型。 这些模型被训练在标记文本上,然后在具有相似语言特征的未标记文本上,不仅学会了预测给定的c测试的难度,而且学会了听写和引出语音测试的难度。

事实上,多林戈报告说,经过训练的模型正确地将更困难的段落排在更简单的段落之上,85%的时间,它的预测反映了由四位专家组成的小组的预测。 研究人员利用这些预测,从语料库中的段落和专家撰写的400多篇文章中自动生成c检验项目。

最终,将所有问题的服务自动化到Duolingo英语水平考生需要创建一个CAT管理算法,该算法在25,000多个测试项目上进行了培训,以通过格式智能循环(例如,是/否词汇文本或音频、c测试、听写和引出)。 在随机选择前四个问题后,算法估计测试分数,并选择下一个问题的难度进行相应的抽样,一个重复的过程,直到测试超过25项(或长度40分钟)。

在实际的测试场景中,人类的proctors会在多轮中对每个测试会话进行大约75种行为的审查,并借助人工智能对每天收集的数百万个数据点进行培训,以检测规则破坏。 除此之外,在测试过程中,计算机视觉算法验证考生的身份(通过他们的网络摄像头),如果他们试图访问外部应用程序或插件,测试将自动取消。

对2018年进行的21000多项考试中超过50万对考生问题的分析表明,多林戈英语考试产生的排名几乎与传统的人类试点测试所提供的排名相同,根据该论文的合著者。 此外,该测试与托福和国际英语语言测试系统(雅思)等英语评估以及符合行业可靠性标准(测试的一致性和稳定性程度)和测试安全性“显著”(0.73)相关。 (Duolingo发现,平均而言,考生在再次看到相同的测试项目之前,可以参加大约1000次的测试。)

在未来的工作中,多林戈研究人员计划调查能力相同但不同亚组(如性别或年龄)的人在测试问题上成功概率不平等的程度。 此外,他们希望研究其他指标,如叙述性和词的具体性,是否可以纳入杜林戈英语水平的模型来预测文本的难度和理解。

为此,最近发布的测试版本包括更细致的口语和写作练习,并具有更高的测试分数可靠性。

“英语是在多林戈学习的最受欢迎的语言,许多学习者还问我们是否可以正式证明他们的英语技能,以帮助他们获得高等教育和更好的就业机会,”多林戈机器学习科学家Burr Settles和评估科学家Geoffrey La Flair在今天发表的博客文章中写道。 “Duolingo是一家由使命驱动的公司,我们创建了Duolingo英语考试,以打破高等教育的障碍。 因此,我们了解到,一种在线的、个性化的测试方法不仅对增加访问机会很重要-这是一项重要的创新,正在重塑我们所知道的教育系统,我们很高兴能够领先。

Duolingo在人工智能英语测试方面的投资与其语言学习平台核心的人工智能的改进相吻合,该平台旨在通过自动为每个语言学习者量身定做来使课程更具吸引力。 统计和机器学习模型,如半衰期回归,分析数百万用户的错误模式,以预测一个人长期记忆中每个单词的“半衰期”,并帮助幕后的内容创作者定制初学者、中级和高级材料,Settles在去年7月的一次采访中告诉VentureBeat。

“英语中有数百万个单词,也许有10,000个高频单词——你教它们什么顺序? 你怎么把它们串在一起?“他说。 “我们人工智能战略的核心部分是尽可能接近人类体验。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。