语音已经是目前市场上的人工智能产品的主要入口之一,语音识别也是当前人工智能领域的重点研究方向,在家居、汽车、机器人等方面有着广泛的应用,未来也将深入到我们学习、生活、工作的各个环节。
随着人工智能的快速发展,国内外科技巨头不断推出自己的应用产品。百度旗下的DuerOS已经成了国内规模最大、最活跃、生态最繁荣的对话式人工智能操作系统。从驾车时“小度小度,导航回家”到小度在家智能音箱快速进入千家万户。
图片来自网络
语音识别巨头科大讯飞旗下的的讯飞翻译机,可帮助使用者在各语种间快速互译,并且准确识别方言。
图片来自网络
搜狗今年新发布的AI录音笔,不仅内置智能降噪功能,还支持对记录语音转写文本后并提供智能摘要。
图片来自网络
如此之多的人工智能产品,相信有不少其他行业的小伙伴好奇,从零开始,构建基础语音识别能力又该从哪里入手呢? 目前业界公认的语音识别技术能力主要分为基础语音识别、基于不同应用场景特征性语音识别。对于基础语音识别技术来说,只要语音活动检测( Voice Activity Detection,简称VAD)检测到有语音输入,唤醒识别系统,读懂说话者意图并作出回应,即为一个优秀系统。 通过语音识别系统原理,我们不难得知语音数据对于声音及语言模型的建立与优化起着至关重要的作用。
语音识别系统原理
基础语音识别能力的训练数据可分为:朗读语音、自然对话、引导语音、噪音环境、情感语音、声纹识别等六大类语音数据。其中,朗读语音,即说话人参照着预定文本进行朗读或复述,该语音数据的优点是要录制的文本内容可以提前设计,使得话题覆盖领域和音素平衡达到理想状态,同样,朗读语音也是构建基础语音识别能力的最佳数据。
朗读类语音数据
普通话
1505小时普通话手机采集语音数据
849小时普通话家居交互手机语音数据
662小时中文重口音手机采集语音数据
132小时中文重口音手机采集语音数据
1026小时中文重口