Attention-Based Convolutional Neural Network for Semantic Relation Extraction
这是一篇2016年的论文,时间比较早,模型也比较简单,有源代码,适合信息抽取入门学习。
摘要
基于注意力的卷积神经网络结构,用于关系分类;
使用了词嵌入、词性标注嵌入、位置嵌入信息;
词级注意力能够更好的确定句子的那一部分对两个条目关系影响最大;
这个模型能够学习基于任务的标记数据的重要特征,方便引入外部知识,如显性依赖结构;
在SemEval-2010 Task 8 benchmark dataset上验证,效果良好。
引言
问题
之前的模型没有考虑单词的权重,所有的词权重都一样,但是其实应该是不一样的。
思路
在CNN中引入Attension,确定相关性较大的词并提高权重,来构建句子向量。
贡献
1.新的卷积网络结构,能够利用词嵌入、词性标注嵌入、位置嵌入信息;
2.词级注意力,检测并利用更相关的信息;
3.SemEval-2010 Task 8结果更好,F1值85*.*9% 。
方法
整体结构
词向量层、卷积+注意力层、拼接层、输出层。
句子卷积与注意力向量直接拼接。
句子卷积
词嵌入、位置嵌入、词性标注嵌入
词嵌入选用CBOW
位置嵌入:采用与e1、e2两个词的相对位置,然后在用CBOW模型进行训练(额,感觉有点不靠谱的样子,我理解错了?bert的位置编码?)
词性标注嵌入:Stanford CoreNLP Toolkit的词性标注,15个标签
最终拼接在一块:w = [W F, pF, P OSF ]。
卷积、最大池化、非线性层
卷积核大小为3、边缘0值填充、核公式为非线性函数
全局最大池化
基于注意力的上下文选择
量化上下文单词与目标条目的关联程度
注意力层的图,就是普通的注意力。
MLP层
全连接层
模型训练
损失函数:指数损失
优化算法:随机梯度下降(SGD)
超参:
超参 | 值 |
---|---|
Minibatch size | 32 |
Word embedding size | 300 |
Word Position Embedding size | 5 |
Part-of-speech tag Embeddings | 10 |
Word Window size | 3 |
Convolution size | 100 |
Learning rate | 0*.*02 |
实验
数据集及评价标准
SemEval-2010 Task 8 数据集,数据集中分了10中关系,前9个有方向,最后一个‘other’无方向,本文不识别关系方向。
使用宏观评价F1值(macro-averaged F1-score)作为评价标准。
参数设置
调整了Word embedding size, Word Position Embedding size, Word Window size, Convolution size,Learning rate, and Minibatch size等参数。
结果对比
消融实验
做了消融实验,对比了添加不同的优化,模型的表现。
其中:“Word Embeddings (WF)”,“Position Embeddings (pF)”,“Part-of-speech tag Embeddings (POSF)”, and “Word attention (WA)”
引用
[1] Shen Y , Huang X . Attention-Based Convolutional Neural Network for Semantic Relation Extraction[C]// International Conference on Computational Linguistics. The COLING 2016 Organizing Committee, 2016.
论文地址:Attention-Based Convolutional Neural Network for Semantic Relation Extraction
源代码名称:Attention-CNN-relation-extraction,github貌似不能上了,可以去码云上自己搜,不知道是不是源版,就不上链接了。
本文为个人阅读论文笔记,仅为个人记录、分享知识,如有侵权,请联系博主进行删除。