SincNet: 一种可解释的卷积滤波器结构

最新推荐文章于 2024-08-12 09:00:32 发布

z小白

最新推荐文章于 2024-08-12 09:00:32 发布

阅读量1.4w

点赞数 19

分类专栏：深度学习声音识别深度学习文章标签： SincNet CNN 可解释神经网络语音识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zzc15806/article/details/87728806

版权

SincNet是一种为了解决深度学习模型的可解释性问题而提出的卷积网络结构，尤其适用于语音识别。它通过预定义的sinc函数作为滤波器，减少了第一层卷积的参数数量，提高了模型的计算效率和收敛速度。实验表明，SincNet在说话人识别和语音识别任务上表现优于标准CNN，并能学习到更具解释性的特征，如音高和共振峰。

摘要由CSDN通过智能技术生成

简介

深度学习发展至今，在很多人工智能应用领域扮演者重要的角色。深度学习能够从数据中学习复杂而抽象的特征表示，但是这个充满意义的学习模式目前依然缺乏“可解释”性，也就是常说的“黑盒子”。例如，深度学习模型对对抗性实例（adversarial examples）极其敏感（模型表现不好），使得研究者不得不思考对模型的理解。这种缺乏“可解释”性可能是阻碍未来深度学习技术发展的一个重要瓶颈。

Bengio大牛提出一种可解释的神经网络结构用于直接处理语音时序信号，称为SincNet。SincNet只针对第一层网络进行设计，意在学习更有意义的滤波器。通常来说，对于处理声音时序信号，认为第一层网络的提取能力至关重要，因为第一层提取的低维特征的有效性是高层网络学习有意义的高维特征信息的前提。

SincNet结构

对于语音时序信号，标准的第一层CNN结构采用时域卷积的操作，定义如下：

其中x[n]是语音信号，h[n]是长度为L的滤波器，y[n]是滤波器的输出。在标准的CNN结构中，每个滤波器的L个元素都是从数据中学习得到的。

在SincNet结构中，卷机操作使用一个预定义的函数g，其中g只包含很少的可学习变量

最低0.47元/天解锁文章

关注

19
点赞
踩
42

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。