SincNet: 一种可解释的卷积滤波器结构

SincNet是一种为了解决深度学习模型的可解释性问题而提出的卷积网络结构,尤其适用于语音识别。它通过预定义的sinc函数作为滤波器,减少了第一层卷积的参数数量,提高了模型的计算效率和收敛速度。实验表明,SincNet在说话人识别和语音识别任务上表现优于标准CNN,并能学习到更具解释性的特征,如音高和共振峰。
摘要由CSDN通过智能技术生成

简介

深度学习发展至今,在很多人工智能应用领域扮演者重要的角色。深度学习能够从数据中学习复杂而抽象的特征表示,但是这个充满意义的学习模式目前依然缺乏“可解释”性,也就是常说的“黑盒子”。例如,深度学习模型对对抗性实例(adversarial examples)极其敏感(模型表现不好),使得研究者不得不思考对模型的理解。这种缺乏“可解释”性可能是阻碍未来深度学习技术发展的一个重要瓶颈。

Bengio大牛提出一种可解释的神经网络结构用于直接处理语音时序信号,称为SincNet。SincNet只针对第一层网络进行设计,意在学习更有意义的滤波器。通常来说,对于处理声音时序信号,认为第一层网络的提取能力至关重要,因为第一层提取的低维特征的有效性是高层网络学习有意义的高维特征信息的前提。


SincNet结构

对于语音时序信号,标准的第一层CNN结构采用时域卷积的操作,定义如下:

其中x[n]是语音信号,h[n]是长度为L的滤波器,y[n]是滤波器的输出。在标准的CNN结构中,每个滤波器的L个元素都是从数据中学习得到的。

在SincNet结构中,卷机操作使用一个预定义的函数g,其中g只包含很少的可学习变量

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值