论文笔记:Distant Supervision for Relation Extraction beyond the Sentence Boundary
第一次提出应用远程监督跨句子关系抽取,文章发表于2016年
一、解决得问题
现有得远程监督关系抽取只从单句中抽取。跨句子抽取在有监督学习中已经有所研究,但利用远程监督得还没有。
二、方法和过程
2.1 思想
采用文档级图表示,融合新的句间关系到原来得相邻关系和依存关系中。
新的关系包括包括:
- coreference
- narrative structures
- rhetorical relations
获得两倍数量抽取关系结果。
2.2 相关工作
记录几个感觉比较有用得。
目前最好得从但单句子中抽取实体及其属性得代表性方法
- Extracting Attributes of Named Entity from Unstructured Textwith Deep Belief Network
- Overview of the english slot filling track at the tac2014 knowledge base population evaluation. Proc Text Analysis Conference (TAC2014)
- Type-Aware Distantly Supervised Relation Extraction with Linked Arguments.
2.3 论文提出得东西:DISCREX
远程监督
在大量得unlabeled text中,寻找KB中已经存在得关系对共存得段落。因为unlabeled text有100W左右得论文,所以可以找出很多这样得段落。找出得结果作为正样本,然后随机挑选共现并且没有关系得实体对作为负样本。并且为了保持样本均衡,产生和正样本数一样得负样本。
Minimal-Span Candidates
在远程监督中,有已知关系得共现实体对被作为正样本得候选,这在单句子中是合理得。但在跨句子关系抽取中,实体对可能出现在一个句子中,也可能出现在不同得句子中,也就是说,共现超过了一次。这时候如何选择?作者认为,应该选择距离近得。距离通过两个实体之间连续句子的数量来衡量。
如果距离都很长,没有短的,通过实验,3个句子之间认为是有推理关系的。
Document Graph
为了从句子内部或跨句子的实体对中获得特征,引入Document Graph。节点代表单词,边代表句子内部或者句子外部之间的关系。这些关系包括:
- dependency relations
- adjacency relations
- discourse relations
上图是横跨两个句子的文档图的例子。每个单词节点被lexical item、lemma、part-of-speech标注。
句间关系:
- 粗粒度:邻句之间,next sentence,两个句子的root相连
- 细粒度:使用discourse parser, 一个state-of-art获得修辞结构
共指关系,可以减小两个实体间的距离,增强联系,提高识别率
- 使用斯坦福共指关系系统获得共指关系,这是潜在跨句子链接的来源
- 增加从指代到其祖先的边
4 特征
依赖路径是关系抽取的重要特征。DISCREX通过在document graph上定义特征模板来实现,其包括各种交错的边(依赖关系、词相邻、句相邻关系、语篇关系等)。虽然这样会产生解析错误,但是可以通过增加邻接词之间的边允许实体之间的多条路径策略来缓解。
首先确定一条由一个实体到另一个实体的路径,每条路径可以看作是一个边和节点的序列(