角度下降 angle-left 关闭 用户 菜单打开 菜单关闭 搜索 全球 酒吧 电话 商店

书面内容的自动评分

许多评估都是为了衡量考生的英语写作技能——例如,他们是否能组织和发展一个论点,写作是否流畅,没有语法错误。然而,在某些情况下,评估使用开放式任务不是为了衡量写作的质量,而是作为一种收集证据的方式,以了解考生在一个特定的主题领域知道什么,学到什么或能做什么。

多项选择问题可以提供一种评估对内容的理解的一种方法,但它们可能并不总是提供最完整的测试者知识的图片。这是因为多项选择问题测试,部分测试领域的识别和从选项列表中识别和选择答案的能力。如果尚未被列为多项选择选项之一,则难以确定测试接受者是否提供了正确的答案。

允许考试者代替编写免费响应可以提供更完整的对其理解的评估。使用多项选择题的选择通常是与具有人类年级开放式反应相关的时间和成本的实际决策。控制这些因素,开放式书面答案通常在评估内容知识方面的多项选择响应中往往是优选的。

在ETS,我们一直在进行重大研究,准确地评分书面反应的内容超过十年。188金宝搏哪里下载在那个时候,我们的方法已经发展了。我们以前使用的自然语言处理技术来评估给定的响应是否包含的文本,该文本对应于项目的标题中列出的概念,或测试问题。

这种方法需要大量的人类努力来描述自动评分系统应该在对每个项目的正确响应中找到的关键概念。我们最近的方法使用机器学习技术,这不需要某人手动输入系统中的所有可能的正确响应。相反,它们只是需要适当的一系列响应,对受过培训的评估者已经完全评分的项目。

这种方法代表了计算语言学和相关领域的最新技术,并借鉴了美国教育考试服务中心对自动内容评分的广泛研究。188金宝搏哪里下载使用这种方法的原型系统在公开竞赛和共享任务(例如自动计分评核奖2012年由休利特基金会赞助,2013年联合学生反应分析和第8次识别文本蕴涵挑战;Heilman & Madnani, 2013)。

它还在不同内容区域的回复上验证,包括科学,阅读理解和数学。

除了评估测试者是否了解概念之外,内容评分可以用于评估作者是否已成功使用源材料 - 例如,要求学生阅读一个或多个段落的测试问题,并包括来自这些来源的相关信息有效反应。

ETS还设计了一个算法,可以量化考生在回答中适当使用给定信息来源的程度。例如,它不仅可以量化响应中使用了多少来自特定来源的信息,还可以量化该信息的重要性(Beigman k黎巴嫩诺夫等人,2014)。

我们目前的研究还侧重于扩188金宝搏哪里下载展自动化内容评估的应用范围。例如,我们正在调查如何最好地使用自动化系统提供反馈 - 例如,关于内容知识或来源的使用 - 在教室中或在线类别。

特色出版物

以下是我们的研究人员撰写关于书面内容自动评分主题的最新或重大出版物。188金宝搏哪里下载

2018

2017


2016

2015

2014

2013

2012

  • 针对解释问题的有效教程反馈:数据集和基线
    M. O. Dzikovska, R. D. Nielsen, & C. Brew
    2012年北美北美会议的核查程序的计算语言学协会:人类语言技术, 200 - 210页

    作者提出了一个新的共享任务来评分学生的答案,其目标是以指导对话的形式实现有针对性和灵活的反馈。他们认为,这一语料库将引起文本蕴涵研究人员的兴趣,并将刺激教程对话系统中的自然语言处理和文本蕴涵、矛盾检测和其他各188金宝搏哪里下载种计算语言学任务感兴趣的技术的新发展。了解有关此出版物的更多信息

  • 测量测试 - 接受论文中的事实信息
    B. beigman - k黎巴嫩诺夫和D. Higgins
    第七次研讨会关于建立教育申请的创新使用NLP研讨会, 63 - 72页

    作者研究了如何衡量事实信息在考生作文中的使用,以及如何评估它在预测作文分数时的有效性。文章还讨论了自动论文评分系统的发展的影响。了解有关此出版物的更多信息

2010

2009

2008

2003

  • C-Rater.:简答题得分
    C. Leacock & M. Chodorow
    计算机和人文学科,卷。37,pp。389-405

    在这篇文章中,作者描述了C-Rater.发动机在两项研究中的使用,其中一个涉及国家教育进展评估(NAEP)以及印第安纳州的全州各种评估。了解有关此出版物的更多信息

查找更多文章

查看更多相关的研究出188金宝搏哪里下载版物自动评分的写作内容

推广链接

找到一个出版

高级搜索