常用数据集

不负韶华ღ

已于 2022-05-10 07:06:11 修改

阅读量3.3k

点赞数 2

分类专栏：机器学习文章标签：数据仓库

于 2022-05-09 16:07:01 首次发布

本文链接：https://blog.csdn.net/weixin_49346755/article/details/124668628

版权

机器学习专栏收录该内容

8 篇文章

订阅专栏

机器翻译任务

1、机器翻译

WMT系列：WMT2017、WMT2018、WMT2019。数据主要来源于 Europarl corpus和UN corpus两个机构，附带从News Commentary corpus 任务中重新抽取的文章。这是由EMNLP会议提供的翻译语料，作为很多论文效果的benchmark来检测。

Ai challenger translation 2017(https://pan.baidu.com/s/1E5gD5QnZvNxT3ZLtxe_boA 提取码: stjf)：规模最大的口语领域英中双语对照数据集。提供了超过1000万的英中对照的句子对作为数据集合。所有双语句对经过人工检查，数据集从规模、相关度、质量上都有保障。训练集：10,000,000 句验证集（同声传译）：934 句验证集（文本翻译）：8000 句。

UM-Corpus:A Large English-Chinese Parallel Corpus：由澳门大学发布的中英文对照的高质量翻译语料。

MultiUN：该数据集由德国人工智能研究中心提供，除此数据集外，该网站还提供了很多的别的语言之间的翻译对照语料供下载。

NIST 2002 Open Machine Translation (OpenMT) Evaluation：数据来源于Xinhua 新闻服务包含70个新闻故事，以及来自于Zaobao新闻服务的30个新闻故事，共100个从两个新闻集中选择出来的故事的长度都再212到707个中文字符之间，Xinhua部分共有有25247个字符， Zaobao有39256个字符。

The Multitarget TED Talks Task (MTTT)：该数据集包含基于TED演讲的多种语言的平行语料，包含中英文等共计20种语言。

ASPEC Chinese-Japanese：该数据集主要研究亚洲区域的语言，如中文和日语之间，日语和英文之间的翻译任务翻译语料主要来自语科技论文（论文摘要；发明描述；专利等等）。

casia2015、casict2011、casict2015、datum2015、datum2017、neu2017：一个系列的中英翻译语料

翻译语料(translation2019zh)：可以用于训练中英文翻译系统，从中文翻译到英文，或从英文翻译到中文；由于有上百万的中文句子，可以只抽取中文的句子，做为通用中文语料，训练词向量或做为预训练的语料。英文任务也可以类似操作；