多语种平行语料数据,助力“一带一路”深入交流

截至2021年1月底,中国已同140个国家和31个国际组织签署了205份共建“一带一路”合作文件,其中涉及12语系、28语族,约132种语言。语言多样性所引发的语言障碍被认为是阻碍“一带一路”相关国家、地区深入交流的主要挑战之一。

随着近年人工智能和自然语言处理技术的快速发展,机器翻译技术与人工翻译水平的差距不断拉近,机器翻译被看作是突破语言障碍的“金钥匙”,将在“一带一路”经济、政治、外交、文化交流等方面起到越来越重要的作用。

机器翻译,即通过计算机将一种语言的文本翻译成另一种语言,已成为目前解决语言屏障的重要方法之一。

统计机器翻译是当前主流的机器翻译方法,它以平行语料数据为基础获取翻译知识,可以开发出高效、性能优良的翻译系统。大规模高质量的平行语料数据对于统计机器翻译系统性能的提高具有重要作用。

数据堂有几十个语种的大规模、高质量的平行语料数据,涵盖书面语、口语等多种类别。

DATATANG

数据堂部分多语种平行语料清单

沉淀十余年数据处理经验的数据堂,积累了自己在语言资料库方面独特的数据优势,覆盖医疗、外贸、体育、金融、能源、计算机、法律等专业领域,提供各类句子级的双语对齐语料,可以帮助各翻译系统实现中、英、日、韩、法、俄、维等不同语种之间的互译。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值