一、背景:
相较于关系分类(Relation Classification,RC),关系抽取(Relation Extraction,RE)任务往往伴随着一个极不平衡的数据集,其中非关系的实例数远远超过其它实例数,这使得RE任务比RC任务更具挑战性,但也更加实用。
CNN已经在关系分类任务中取得了很大成果。但是目前为止,还没有工作将CNN运用到RE任务中去,本文是填补这一空白的第一次尝试,为今后在这一领域的研究提供了baseline。
二、模型:
1.Word Representation
首先,由于CNN只能处理定长输入,故使用trimming/padding策略,使每个句子长度一致。
word embedding:
对于每个单词xi,将其通过word embedding矩阵W映射为向量ei,维度为me。
矩阵W使用随机初始化或预训练初始化。
position embedding:
对于每个单词xi,其到两个实体xi1,xi2的相对距离为i-i1&