Disconnected Recurrent Neural Networks(DRNN)
CNN模型擅长抽取位置不变的局部特征,但是对于一些长距离依赖的问题处理的并不好。
RNN模型则更适合处理长距离依赖问题。
DRNN将RNN和CNN的优点结合起来,利用RNN增加了文本的长期依赖性,利用CNN增强了对局部的检测和位置不变性。该模型的结构是将k个RNN作为CNN中的卷积核,其中k为window size。这样一来,卷积核的k个RNN能够使每个时间步的隐藏层只依赖当前位置附近的信息,同时卷积结构又保持了位置不变性。这种结构的另外一个优点在于,由于卷积核大小window size是RNN的循环单元个数,所以它的参数不会像普通的卷积核一样随着核的大小增加而增多,从而缓解了因为参数过多导致的过拟合问题。
利用DRNN来进行文本分类的模型如下:(MLP:多层感知机,DGRU:采用GRU实现的DRNN)
该论文还有问题不理解:
1.由于卷积核大小window size是RNN的循环单元个数,所以它的参数不会像普通的卷积核一样随着核的大小增加而增多,从而缓解了因为参数过多导致的过拟合问题。为什么?
2.论文提到可以进行dropout还不清楚怎么执行。
Disconnected Recurrent Neural Networks for Text Categorization
最新推荐文章于 2021-07-16 08:01:59 发布