关于国内外语法纠错的研究（二）-数据集

桔色的猫

于 2024-05-23 10:32:02 发布

阅读量1.5k

点赞数 29

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_47440313/article/details/139134675

版权

文章目录

- 概要
- English Dataset
- - FCE
  - NUCLE/CoNLL
  - Lang-8
  - JFLEG
  - W&I+LOCNESS
  - others
- 中文语料库
- - NLPTEA
  - NLPCC-2018
  - MuCGEC
- 总结

概要

在上文中阐述了语法纠错的时代背景，语法纠错的含义，以及前人对于构建语法纠错数据的一些思路，本文将整理现如今最通用的几个数据集，包含英语，中文等等。

English Dataset

没有详细将全部介绍，这里我们只谈几种通用的

FCE

FCE(he First Certificate in English )，第一证书语料库是剑桥学习者语料库 (CLC)的公共子集，由国际英语学习者编写的 1,244 个脚本（大约为531k 单词）组成作为第二语言（L1为母语使用者，L2 学习者）。每个脚本通常包含两个针对短文、信件或描述风格的提示的答案，并且每个答案都由单个注释者更正，该注释者根据 88 种错误类型的框架对每个编辑进行了识别和分类 )（FCE 中表示了 71 种独特的错误类型）。数据被分为标准训练、开发和测试集，它还包含论文级别分数以及有关学习者的其他有限元数据，并已用于自动论文评分。评级为B1-B2(PS：初级（A1–A2）、中级（B1–B2）、高级（C1–C2）)

NUCLE/CoNLL

新加坡国立大学学习英语语料库 (NUCLE)）由需要 L2 英语语言支持的新加坡国立大学本科生撰写的 1,397 篇议论文（约 116 万单词）组成。这些文章大约为 C1 级别，涉及不同的主题，包括技术、医疗保健和金融，每一篇文章都由一位注释者进行更正，注释者根据 28 种错误类型的框架对每次编辑进行识别和分类。
NUCLE 被用作 CoNLL-2013 和 CoNLL2014 共享任务的官方训练语料库 (Ng et al. 2013, 2014) 以及 BEA-2019 共享任务的官方训练数据集之一 (Bryant et al. 2019)。 CoNLL-2013 和 CoNLL-2014 测试集在与 NUCLE 类似的条件下进行注释，分别包含 50 篇论文（约 3 万字），主题为监测技术和人口老龄化，以及基因测试和社会媒体。 CoNLL-2014测试集也由2个独立注释者进行双重注释，产生2组官方参考注释（Bryant 和 Ng (2015) 以及 Sakaguchi 等人）。随后又收集了另外8组注释，每组注释总共18组参考注释。 CoNLL-2013 数据集现在偶尔用作开发集，而 CoNLL2014 数据集是最常用的基准测试集之一。 CoNLL-2014 测试集的一个局限性是它不是很多样化，因为它完全由一小部分学习者就两个不同主题撰写的论文组成。（PS:评级均为C1）