【好数推荐】小语种语音数据集

近两年,随着“一带一路”建设的深入推进以及AI和云计算等新兴技术产业迅速崛起,已经有越来越多的中国科技企业实现走出去。然而,对于一些人工智能企业来说,出海之路仍面临诸多难题。首当其冲就是语言问题,准确而清晰的识别语音,是智能产品打开当地市场的基本前提。

小语种,顾名思义即语言覆盖范围小,使用人数少而无法作为国际流通语言,对于小语种语音识别的实现而言,由于不同语言之间差异很大,人工智能厂商需要根据不同的语言特性单独建模,为保证语音识别的效果,就需要运用不同语种的优质数据集进行模型优化,然而高质量小语种训练数据稀缺,成为语音识别的一大瓶颈。

作为全球领先的人工智能的数据服务商,数据堂现有近30个小语种的成品语音数据,可满足多数小语种语音识别的需求,数据堂严格遵守相关规定,所采集的数据均已获得被采集人授权。

德语语音数据
数据时长近3000小时,德国本土发音人参与录制,录音文本由语言专家参与设计,包括经济、娱乐、新闻、口语、数字、字母等,文本经过人工校对,准确率高,可应用于语音识别、机器翻译、声纹识别等任务。

韩语语音数据
音人,在安静无回音的环境的录音数据,录音内容广泛,包括经济,娱乐,新闻,口语,数字,字母等,文本转写句错误率小于5%。匹配主流安卓、苹果系统手机。

法语语音数据
数据时长近1800小时,由法国、加拿大、非洲等地的法语母语发音人参与录制,录音环境安静,录音内容丰富,覆盖经济、娱乐、新闻、口语等多个领域,所有文本由人工转写,句准确率达95%,可应用于语音识别、机器翻译、声纹识别等任务。

西班牙语语音数据
数据时长近3000小时,由西班牙、墨西哥、委内瑞拉等国的西班牙语母语人员参与录制,录音环境安静,录音内容丰富,覆盖经济、娱乐、新闻、口语等多个领域,文本经过人工校对,准确率高,可应用于语音识别、机器翻译、声纹识别等任务。

葡萄牙语语音数据
数据时长近2000小时,由葡萄牙、巴西本土葡萄牙母语发音人参与录制,录音文本由语言专家参与设计,涵盖通用、交互、车载、家居等多类别,内容丰富,文本经过人工校对,准确率高,匹配主流安卓、苹果系统手机。

日语语音数据
数据时长近1000小时,由日本母语发音人参与录制,覆盖东部、西部、九州地区,其中东部地区占比最多。录音内容丰富,所有文本均经过人工转写,准确率高。

印地语音数据

数据时长近1500小时,由印度本土发音人参与录制,录音涵盖安静和噪音的不同环境,更贴合语音识别实际应用场景,录音内容丰富,覆盖经济、娱乐、新闻、口语等多个领域,所有文本由人工转写,准确率高,可应用于语音识别、机器翻译、声纹识别等任务。

如果以上数据不能满足您当前的需求,数据堂还可以针对特定人群、特定场景、特定语种提供个性化的数据定制服务,我们将全力协助客户得到满意的数据服务。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值