文章目录
概要
在上文中阐述了语法纠错的时代背景,语法纠错的含义,以及前人对于构建语法纠错数据的一些思路,本文将整理现如今最通用的几个数据集,包含英语,中文等等。
English Dataset
没有详细将全部介绍,这里我们只谈几种通用的
FCE
FCE(he First Certificate in English ),第一证书语料库是剑桥学习者语料库 (CLC)的公共子集,由国际英语学习者编写的 1,244 个脚本(大约为531k 单词)组成 作为第二语言(L1为母语使用者,L2 学习者)。每个脚本通常包含两个针对短文、信件或描述风格的提示的答案,并且每个答案都由单个注释者更正,该注释者根据 88 种错误类型的框架对每个编辑进行了识别和分类 )(FCE 中表示了 71 种独特的错误类型)。 数据被分为标准训练、开发和测试集,它还包含论文级别分数以及有关学习者的其他有限元数据,并已用于自动论文评分。评级为B1-B2(PS:初级(A1–A2)、中级(B1–B2)、高级(C1–C2))
NUCLE/CoNLL
新加坡国立大学学习英语语料库 (NUCLE))由需要 L2 英语语言支持的新加坡国立大学本科生撰写的 1,397 篇议论文(约 116 万单词)组成。 这些文章大约为 C1 级别,涉及不同的主题,包括技术、医疗保健和金融,每一篇文章都由一位注释者进行更正,注释者根据 28 种错误类型的框架对每次编辑进行识别和分类。
NUCLE 被用作 CoNLL-2013 和 CoNLL2014 共享任务的官方训练语料库 (Ng et al. 2013, 2014) 以及 BEA-2019 共享任务的官方训练数据集之一 (Bryant et al. 2019)。 CoNLL-2013 和 CoNLL-2014 测试集在与 NUCLE 类似的条件下进行注释,分别包含 50 篇论文(约 3 万字),主题为 监测技术和人口老龄化,以及 基因测试和社会媒体。 CoNLL-2014测试集也由2个独立注释者进行双重注释,产生2组官方参考注释(Bryant 和 Ng (2015) 以及 Sakaguchi 等人)。随后又收集了另外8组注释,每组注释总共18组参考注释。 CoNLL-2013 数据集现在偶尔用作开发集,而 CoNLL2014 数据集是最常用的基准测试集之一。 CoNLL-2014 测试集的一个局限性是它不是很多样化,因为它完全由一小部分学习者就两个不同主题撰写的论文组成。(PS:评级均为C1)