论文《Fast and Accurate Entity Recognition with Iterated Dilated Convolutions》

最新推荐文章于 2022-05-08 09:03:07 发布

XB_please

最新推荐文章于 2022-05-08 09:03:07 发布

阅读量1.8k

点赞数 4

分类专栏：命名实体识别文章标签：命名实体识别 IDCNN BiLSTM

原文链接：http://www.crownpku.com/2017/08/26/%E7%94%A8IDCNN%E5%92%8CCRF%E5%81%9A%E7%AB%AF%E5%88%B0%E7%AB%AF%E7%9A%84%E4%B8%AD%E6%96%87%E5%AE%9E%E4%BD%93%E8%AF%86%E5%88%AB.html

版权

命名实体识别专栏收录该内容

5 篇文章 1 订阅

订阅专栏

论文地址：Fast and Accurate Entity Recognition with Iterated Dilated Convolutions

对于序列标注问题，普通的CNN有一个劣势：卷积之后，末层神经元可能只是得到了原始输入数据中一小块的信息。而对于命名实体识别，整个句子的每个字对当前需要标注的字产生影响。为了覆盖更多的信息，加入更多的卷积层，这样会导致层数越来越深，参数越来越多，为防止过拟合要加入更多的Dropout之类的正则化，带来更多的超参数，整个模型变得庞大和难以训练。

BiLSTM之类的网络结构，能够尽可能的记住全局的信息来对单个字做标注。但问题是，并行计算能力不如CNN强大。

该论文提出了一个dilated CNN的模型。
想法其实很简单：正常CNN的filter，都是作用在输入矩阵一片连续的位置上，不断sliding做卷积。dilated CNN为这片filter增加了一个dilation width，作用在输入矩阵的时候，会skip掉所有dilation width中间的输入数据；而filter矩阵本身的大小仍然不变，这样filter获取到了更广阔的输入矩阵上的数据，看上去就像是“膨胀”了一般。

具体使用时，dilated width会随着层数的增加而指数增加。这样随着层数的增加，参数数量是线性增加的，而receptive field却是指数增加的，可以很快覆盖到全部的输入数据。

在这里插入图片描述

对应在文本上，输入是一个一维的向量，每个元素是一个character embedding：

在这里插入图片描述

模型是4个大的相同结构的Dilated CNN block拼在一起，每个block里面是dilation width为1, 1, 2的三层Dilated卷积层，所以叫做 Iterated Dilated CNN。

IDCNN对输入句子的每一个字生成一个logits，这里就和biLSTM模型输出logits之后完全一样，放入CRF Layer，用Viterbi算法解码出标注结果。

在biLSTM或者IDCNN这样的深度网络模型后面接上CRF层是一个序列标注很常见的方法。biLSTM或者IDCNN计算出的是每个词分类的概率，而CRF层引入序列的转移概率，最终计算出loss反馈回网络。

缺点：1)会丢失局部信息; 2)虽说可以看得比较远，但是有时候远距离的信息并没有相关性。

应用场景：1)需要全局信息的图像任务; 2)需要解决长距离信息依赖的语音与文本任务。

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。