数据推荐 | 自然对话语音数据集

数据堂官方账号

已于 2023-03-31 17:19:35 修改

阅读量1.1k

点赞数

分类专栏：数据产品文章标签：语音识别人工智能

于 2022-09-16 14:46:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44532659/article/details/126890127

版权

数据产品专栏收录该内容

124 篇文章

订阅专栏

从目前的数据行业看，大部分语音识别数据都以朗读式训练数据为主，朗读式语音数据可以解决例如手机语音助手、车载语音助手、智能音箱、智能家电等较为简单的人机交互应用场景。

用户和机器之间通常是以单一短句的形式来对话或进行命令控制，用户往往会注意自己的语速和发音，本质是一种非自然状态下的发音。在这种场景下，朗读式语音数据可以满足语音识别算法的训练需求。

然而，随着语音识别技术在智能客服、智能会议等更多自然场景下的落地，朗读式语音数据的训练效果开始变得差强人意。由于日常生活中说话人的发音习惯更加自然，在发声时会有大量的连音、吞音、发音变形、咬字不清等，包括一些无意识的“嗯、啊、呃”等，说话人往往不会刻意去控制语音、发音习惯，多人同时交流时甚至会出现语句打断、抢话、交叠音等复杂语音现象，所以这种自然对话风格的语音识别率就不是很理想。

数据是人工智能的基础，要想使人工智能技术有更高的准确率，就需要和应用场景更加匹配的训练数据集。自然对话语音数据已经成为业内更急缺的数据集。
数据堂在采集自然对话语音数据时，完全没有预设语料，只给出话题列表，录音人从中挑选多个自己感兴趣并熟悉的话题展开对话，确保对话语音自然流畅。
目前数据堂拥有20万小时成品语音数据集，其中，自然对话风格的语音数据近4万小时，包括中文普通话、方言、英语、日语、韩语、印地语、越南语、阿拉伯语、西班牙语、法语、德语、意大利语等，发音人来自不同地域及城市、年龄性别覆盖均衡。所有音频都经过了严格的人工转写及质检，标注文本内容、有效句子的起止时间点、录音人身份标识等，句准确率高达95%以上。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。