Common Voice开源语音识别数据集项目范围再扩大,开始建立多语言数据集

 

内容来源:ATYUN AI平台

Common Voice项目旨在创建开源语音识别数据集,Mozilla宣布它正在扩大此众包项目,以加入更多语言。

该技术组织于去年6月首次发布Common Voice,邀请来自世界各地的志愿者通过网络和移动应用来记录文本片段。

该项目与亚马逊,谷歌,苹果和微软等正在开发的专有语音识别技术形成了对比。上述巨头正在大力投资于语音助理,但各自的数据集均由公司自己拥有。

Mozilla于11月推出了第一批Common Voice英语数据集,收录了大约500小时的演讲,并通过20000个人构建了40万个录音。今天,Mozilla正式开始收集另外三种语言的语音数据:法语,德语和威尔士语。目前也正在准备收集另外40种语言。

很明显,语音将成为技术的下一个重要平台。正是在这种背景下,Mozilla正在推进创建开源数据集的计划,任何人都可以自由使用这些数据集来将语音识别智能构建到各种应用程序和服务中。

Mozilla首席创新官Katharina Borchert表示:“我们相信这些不应该为少数几家公司独有,并且我们希望用户自己的语言和口音能够被识别和理解。”

Common Voice项目的用途类似于其他用于对抗私人平台的开放许可项目。比如OpenStreetMap,该项目为开发人员提供开放且可自由使用的世界地图。

在可访问性方面,英语可能在互联网中作为通用语而存在,但事实是大多数人的母语并不是英语。随着语音识别AI革命的兴起,为开发机器学习模型的技术人员提供多语言数据集是必要的。

“使用多种语言标志着Common Voice迈出了重要的一步,我们希望这对于整体语音技术来说也是一种进步,”Common Voice项目的数字策略师Michael Henretty 补充道。“语音技术的民主化不仅会降低全球创新的障碍,更打破了信息获取的阻碍。”

本文转自ATYUN人工智能媒体平台,原文链接:Common Voice开源语音识别数据集项目范围再扩大,开始建立多语言数据集

更多推荐

未来的“抖音神曲”将Made in AI?

15条常用Python小技巧

Github上评价最高的几个机器学习项目

标签:

开源项目自然语言处理NLP

 

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值