《Crystal inducing a conceptual dictionary》论文阅读笔记

Crystal inducing a conceptual dictionary

Stephen Soderland, David Fisher, Jonathan Aseltine, and Wendy Lehnert. 1995. Crystal inducing a conceptual dictionary. In Proceedings of IJCAI.

Abstract

信息抽取系统使用语言模式词典(dictionary of linguistic patterns)作为知识来源,本文提出的就是自动化建立概念节点定义字典(dictionary of “concept-node definitions”)的系统CRYSTAL,使用尽可能泛化的概念节点定义,还可以测试每个定义的准确性。

1.Information Extraction

从自然语言文本中抽取出的信息表示为格框架(case frame),称为概念节点(concept nodes,CN)。这里格框架涉及到格语法(case grammar),是乔姆斯基的转换生成语法的一个分支。一个格框架可由一个主要概念一组辅助概念组成,这些辅助概念以一种适当定义的方式同主要概念相联系。在实际使用中,主要概念可以理解为动词,辅助概念理解为施事格,受事格,处所格,工具格,工具格等语义深层格。
概念节点定义(CN definition)字典通过描述可能在其中找到相关信息的本地句法和语义上下文来存储识别相关引用所需的领域知识。论文中使用的是医学领域的例子,抽取对“诊断”和“迹象或症状”的引用,给出了一个概念节点定义的例子。

DiagnosisSign or Symptom
confirmedpresent
ruled outabsent
suspectedpresumed
pre-existingunknown
pasthistory

这里笔者的理解是辅助概念就是经常与主要搭配使用的词或短语,在语义中产生了固定的搭配。
Figure 1 A CN definition to identify "sign or symptom,absent"

这个概念节点定义适用于"The patient denies any episodes of nausea.“而不适用于"Patient denies a history of asthma.”,因为哮喘属于语义类别<Disease or Syndrome>,而不是<Sign or Symptom>的子类别。

迁移到新的域时,需要定义新的概念节点定义,本文的工作就是自动化地完成这个过程。

2.Concept Node Definitions

概念节点(以下称CN)通常包含两个固定的(slots),即CN类别子类别,以及用于保存提取的信息的槽,通常是名词短语。其实就是基于模板的抽取,满足模板的约束就可以抽取出相应的CN。
这一章仍旧给出了一个用于医院病历的概念节点定义的例子,并分析了抽取的过程和可能存在的问题,引入下一章自动化地引入概念节点定义。

3.The CRYSTAL Dictionary Induction Tool

简单来说,使用人工制定的特定域的CND字典不够泛化,CRYSTAL的主要工作就是放宽CND中的限制,并将相近的CND合并,来提高CND字典的泛化能力。

3.1 Creating Initial CN Definitions

第一步是由领域专家注释一组训练文本。然后,由BADGER句子分析器对带注释的文本进行分段,以创建一组训练实例。接下来从训练实例中构建CND字典,例如训练实例的主语缓冲区标记为“diagnosis”、子类型标记为“pre-existing”,则创建一个初始的CND,该定义将提取主语缓冲区中的短语作为预先存在的诊断(pre-existing diagnosis)。因为初始化时模型不知道特征是否重要,所以将所有的特征信息(包括顺序和语义类)都作为当前CND的约束,之后再学习应该放宽那些约束。例如,通过向上移动语义层次结构或删除约束来放松语义约束;通过删除除单词的子序列之外的所有单词或删除约束,可以放宽确切的单词约束。

3.2 Inducing Generalized CN Definitions

本节主要说明CRYSTAL如何从一组初始的CND中归纳概括,并测试每个归纳出的定义都不会过度概括。
CRYSTAL算法
对于字典中的初始CND,在字典中循环寻找一个与之最相似的CND,放松约束使得二者能合并在一起,并在训练实例上测试覆盖范围(coverage)并检查错误率,直到错误率超出宽容度,就把用于合并的所有CND从字典中移除,将合并后的CND加入字典,直到所有的初始CND都经过泛化。与哈夫曼树的思路较为类似。 在度量两个CDN的相似度时就确定了如何经过最少的约束松弛使得两个CND能够合并为一个最严格约束的CND,具体的实现在下节中讨论。合并时,对于单词约束取两个单词约束的最长公共子字符串作为新的单词约束,不存在则删除该单词约束;对于语法类约束,则寻找它们的公共祖先,找不到公共祖先则删除该约束。在训练实例上测试时,如果识别出了符合约束但未被标记的文本,也被认为是错误,但错误采用阈值加以约束,达到一定错误率才停止松弛合并,增加了字典的鲁棒性。

3.3 Efficiency Issues Finessing Intractability

对于每个CND的多个约束条件都有多种松弛方式,使得约束松弛成为了指数级别的问题,此处CRYSTAL将约束松弛问题简化为找到相似CND的问题,并且为CND数据库中的动词和提取缓冲区建立索引加快相似CND的查找速度。此外在约束松弛过程中,为了充分利用动词约束带来的检索加速,并保证约束的效果,在其他约束都已经被充分松弛之后才轮到动词约束。

4.Experimental Results

采用准确率和召回率作为评价标准,针对错误率阈值的选取进行了实验。就结果而言,错误率阈值越高,则准确率越低、召回率越高,这也是符合直觉的。除错误率阈值外,覆盖范围(coverage)也会影响准确率和召回率,但图中没有给出,只是说明了提高最小覆盖范围可以提高准确率。扩大训练规模,发现召回率随之升高,可以达到超过60%。固定错误阈值和最小覆盖范围进行测试,发现准确率在不同的训练规模下保持相对恒定。此外,还介绍了一些具有代表性的CND,并分析了高覆盖度CND上缺乏语义约束的原因可能是语义词典中的空白。

5.Related Work

CRYSTAL是最早自动引入信息提取规则字典的系统之一,这一节中与UMass采用的AutoSlog、以及PALKA中类似CRYSTAL的方法进行了比较:与AutoSlog或PALKA相比,CRYSTAL允许更具表现力的提取模式。

  • 虽然AutoSlog要求对一个或多个触发词有确切的词约束,这是从单个实例中确定的,但CRYSTAL允许对它学习到的重要词进行精确的词约束,并且它也可以学习没有词约束的CN定义。
  • PALKA的FP结构限制了动词的词根形式,但没有其他确切的单词约束。与AutoSlog和PALKA不同,CRYSTAL并未事先决定要在其CN定义中包括哪些成分。

CRYSTAL中的归纳概念学习是一种“特定于一般”的数据驱动搜索,目标是涵盖所有正例和无负例的最具体的概括,但使用的不是BFS而是贪心思想

6.Conclusions

  • CRYSTAL是最早从训练语料库中自动导出概念词典的系统之一,它代表了对以前从训练示例中导出文本分析规则的尝试的改进。
  • CRYSTAL的目标是找到覆盖所有正训练实例的最小化的广义CND集合,并针对训练语料库测试每个定义,以确保错误率在预想的范围中。
  • CRYSTAL通过调整错误率阈值可以权衡准确率和召回率。
  • CRYSTAL在当时简化了概念字典的生成工作,只需要语义层次词典和标注好语义类别的语料即可。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值