常用数据集

机器翻译任务

1、机器翻译

WMT系列:WMT2017WMT2018WMT2019。数据主要来源于 Europarl corpus和UN corpus两个机构, 附带从News Commentary corpus 任务中重新抽取的文章。 这是由EMNLP会议提供的翻译语料, 作为很多论文效果 的benchmark来检测。

Ai challenger translation 2017(https://pan.baidu.com/s/1E5gD5QnZvNxT3ZLtxe_boA 提取码: stjf):规模最大的口语领域英中双语对照数据集。 提供了超过1000万的英中对照的句子对作为数据集合。 所有双语句对经过人工检查, 数据集从规模、相关度、质量上都有保障。 训练集:10,000,000 句 验证集(同声传译):934 句 验证集(文本翻译):8000 句。

UM-Corpus:A Large English-Chinese Parallel Corpus:由澳门大学发布的 中英文对照的 高质量翻译语料。

MultiUN:该数据集由德国人工智能研究中心提供, 除此数据集外,该网站还提供了很多的别 的语言之间的翻译对照语料供下载。

NIST 2002 Open Machine Translation (OpenMT) Evaluation:数据来源于Xinhua 新闻服务包含70个新闻故事, 以及来自于Zaobao新闻服务的30个新闻故事,共100个 从两个新闻集中选择出来的故事的长度都再212到707个 中文字符之间,Xinhua部分共有有25247个字符, Zaobao有39256个字符。

The Multitarget TED Talks Task (MTTT):该数据集包含基于TED演讲的多种语言的平行语料,包含中英文等共计20种语言。

ASPEC Chinese-Japanese:该数据集主要研究亚洲区域的语言,如中文和日语之间, 日语和英文之间的翻译任务 翻译语料主要来自语科技论文(论文摘要;发明描述;专利等等)。

casia2015、casict2011、casict2015、datum2015、datum2017、neu2017:一个系列的中英翻译语料

翻译语料(translation2019zh):可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文; 由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作;

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不负韶华ღ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值