关于国内外语法纠错的研究(二)-数据集

概要

在上文中阐述了语法纠错的时代背景,语法纠错的含义,以及前人对于构建语法纠错数据的一些思路,本文将整理现如今最通用的几个数据集,包含英语,中文等等。

English Dataset

没有详细将全部介绍,这里我们只谈几种通用的

FCE

FCE(he First Certificate in English ),第一证书语料库是剑桥学习者语料库 (CLC)的公共子集,由国际英语学习者编写的 1,244 个脚本(大约为531k 单词)组成 作为第二语言(L1为母语使用者,L2 学习者)。每个脚本通常包含两个针对短文、信件或描述风格的提示的答案,并且每个答案都由单个注释者更正,该注释者根据 88 种错误类型的框架对每个编辑进行了识别和分类 )(FCE 中表示了 71 种独特的错误类型)。 数据被分为标准训练、开发和测试集,它还包含论文级别分数以及有关学习者的其他有限元数据,并已用于自动论文评分。评级为B1-B2(PS:初级(A1–A2)、中级(B1–B2)、高级(C1–C2))

NUCLE/CoNLL

新加坡国立大学学习英语语料库 (NUCLE))由需要 L2 英语语言支持的新加坡国立大学本科生撰写的 1,397 篇议论文(约 116 万单词)组成。 这些文章大约为 C1 级别,涉及不同的主题,包括技术、医疗保健和金融,每一篇文章都由一位注释者进行更正,注释者根据 28 种错误类型的框架对每次编辑进行识别和分类。
NUCLE 被用作 CoNLL-2013 和 CoNLL2014 共享任务的官方训练语料库 (Ng et al. 2013, 2014) 以及 BEA-2019 共享任务的官方训练数据集之一 (Bryant et al. 2019)。 CoNLL-2013 和 CoNLL-2014 测试集在与 NUCLE 类似的条件下进行注释,分别包含 50 篇论文(约 3 万字),主题为 监测技术和人口老龄化,以及 基因测试和社会媒体。 CoNLL-2014测试集也由2个独立注释者进行双重注释,产生2组官方参考注释(Bryant 和 Ng (2015) 以及 Sakaguchi 等人)。随后又收集了另外8组注释,每组注释总共18组参考注释。 CoNLL-2013 数据集现在偶尔用作开发集,而 CoNLL2014 数据集是最常用的基准测试集之一。 CoNLL-2014 测试集的一个局限性是它不是很多样化,因为它完全由一小部分学习者就两个不同主题撰写的论文组成。(PS:评级均为C1)

Lang-8

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

桔色的猫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值