简介
深度学习发展至今,在很多人工智能应用领域扮演者重要的角色。深度学习能够从数据中学习复杂而抽象的特征表示,但是这个充满意义的学习模式目前依然缺乏“可解释”性,也就是常说的“黑盒子”。例如,深度学习模型对对抗性实例(adversarial examples)极其敏感(模型表现不好),使得研究者不得不思考对模型的理解。这种缺乏“可解释”性可能是阻碍未来深度学习技术发展的一个重要瓶颈。
Bengio大牛提出一种可解释的神经网络结构用于直接处理语音时序信号,称为SincNet。SincNet只针对第一层网络进行设计,意在学习更有意义的滤波器。通常来说,对于处理声音时序信号,认为第一层网络的提取能力至关重要,因为第一层提取的低维特征的有效性是高层网络学习有意义的高维特征信息的前提。
SincNet结构
对于语音时序信号,标准的第一层CNN结构采用时域卷积的操作,定义如下:
其中x[n]是语音信号,h[n]是长度为L的滤波器,y[n]是滤波器的输出。在标准的CNN结构中,每个滤波器的L个元素都是从数据中学习得到的。
在SincNet结构中,卷机操作使用一个预定义的函数g,其中g只包含很少的可学习变量