20191220--paper摘要

【5】 LSTM-TDNN with convolutional front-end for Dialect Identification in the 2019 Multi-Genre Broadcast Challenge
标题:具有卷积前端的LSTM-TDNN用于2019年多流派广播挑战赛中的方言识别
作者: Xiaoxiao Miao, Ian McLoughlin
链接:https://arxiv.org/abs/1912.09003

本文介绍了为第五届多类型广播挑战赛(MGB-5adi挑战赛)开发的一个新的方言识别系统。该系统改进了传统DNN x矢量的性能,采用卷积和长短期记忆递归(CLSTM)结构,结合了卷积神经网络前端用于特征提取的优点和后端递归神经网络捕获较长时间依赖性的优点。此外,我们还利用时间尺度修正(TSM)研究了一个低资源方言在高度不平衡训练集中的强化。这将一个话语转换成几个时间延长或时间压缩的版本,随后用于训练CLSTM系统,而不使用任何其他语料库。在本文中,我们还研究了使用MUSAN和RIR数据集的语音增强,以正常方式增加现有训练数据的数量和多样性。结果表明,CLSTM结构优于传统的DNN x矢量实现。其次,采用基于TSM的速度扰动对不平衡数据的性能有很小的改善,最后,根据相关说话人和语言识别任务的证据,传统的数据增强技术有了进一步的优势。我们的系统在2019年ASRU的MGB-5 ADI挑战赛的15个参赛者中排名第二。

【3】 Practical applicability of deep neural networks for overlapping speaker separation
标题:深层神经网络在重叠说话人分离中的实用适用性
作者: Pieter Appeltans, Hugo Van hamme
备注:Interspeech 2019
链接:https://arxiv.org/abs/1912.09261

本文研究了两种基于深度学习的方法在重叠说话人分离问题中的应用。首先,我们的实验表明这些方法适用于广泛的语言。进一步的实验表明,当未经训练的语言具有与训练语言相同的特征时,其性能损失是有限的。其次,研究了该方法如何处理真实背景噪声,并提出了一些改进措施,以更好地应对这些干扰。将要研究的深度学习方法是深度聚类和深度吸引子网络

【4】 Personalization of End-to-end Speech Recognition On Mobile Devices For Named Entities
标题:用于命名实体的移动设备上的端到端语音识别的个性化
作者: Khe Chai Sim, Lillian Zhou
链接:https://arxiv.org/abs/1912.09251

我们研究了几种个性化端到端语音模型的技术的有效性,并改进了与用户相关的专有名称的识别。这些技术在提供监督所需的用户努力量上有所不同,并且评估它们如何影响语音识别性能。我们建议使用关键词相关的精确性和召回指标来衡量词汇习得的性能。我们在一个数据集上评估算法,该数据集包含难以识别的人名。因此,该数据集中的专有名称的基线召回率非常低:2.4%。我们开发的一种数据合成方法使其达到48.6%,不需要用户输入语音。通过语音输入,如果用户只更正姓名,则姓名召回率将提高到64.4%。如果用户纠正了所有的识别错误,我们可以获得73.5%的最佳召回率。为了消除上传用户数据和在服务器上存储个性化模型的需要,我们专注于在移动设备上执行整个个性化工作流

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值