说话人确认中的大规模自监督语音表示学习

深海的银

已于 2023-01-11 14:42:42 修改

阅读量251

点赞数

分类专栏： ICASSP 2022 文章标签：深度学习

于 2023-01-10 18:43:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44543298/article/details/128634544

版权

ICASSP 2022 专栏收录该内容

8 篇文章

订阅专栏

研究发现，使用大规模无标签数据进行自监督学习的语音表示对自动说话人验证任务具有更强的泛化能力。通过预训练的ECAPA-TDNN模型和可训练权重变换，实验结果显示在VoxCeleb数据集上的错误率显著降低，证明了这种方法的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

LARGE-SCALE SELF-SUPERVISED SPEECH REPRESENTATION LEARNING FOR AUTOMATIC SPEAKER VERIFICATION

摘要

基于大规模无标签数据的语音表示学习比监督学习泛化能力更强；

本文探索了不同自监督目的下和不同数据集下语音表示学习的一些限制，特别是针对ECAPA-TDNN；

将从预训练模型得到的隐层经过可训练权重变换，之后输入到ECAPA作为输入特征；

实验结果表示，在Voxceleb上，预训练变换后的权重性能远优于FBank；

单个模型在VoxCeleb1上EER：0.537%、0.569%、1.18%；三个预训练集合在Vox1上 0.479%、0.536、1.023%

Index Terms：表示学习、自监督、预训练

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。