Models of Metaphor in NLP笔记
摘要
隐喻自动处理主要分为隐喻识别和隐喻理解两个部分。这篇文章主要系统地总结了现有的隐喻模型,讨论了语料库中的隐喻标记和可用资源。
简介
之前隐喻自动处理最主要的贡献需要追溯到三十年前(Wilks, 1978; Lakoff and Johnson, 1980; Fass, 1991)并且主要是依靠特定任务的手工编码知识(task-specific hand-coded knowledge)完成。
近年来,词汇语义和词汇习得技术上的工作为完全自动化的模式识别和解释比喻性语言打开了许多创作的新途径。
理论基础
从语言学和哲学上,可以从四个角度看待隐喻:对比角度(Gentner, 1983), 相互作用角度 (Black, 1962), (Hesse, 1966), 违反选择限制角度(Wilks,1975;Wilks, 1978) and 概念性隐喻角度(Lakoff and Johnson, 1980).( the comparison view (Gentner, 1983),the interaction view (Black, 1962), (Hesse, 1966), the selectional restrictionsviolation view (Wilks, 1975; Wilks, 1978) and the conceptual metaphor view (Lakoffand Johnson, 1980)2.)
Lakoff and Johnson 利用隐喻概念来定义隐喻,但是由于隐喻的外在形式和使用形式都在变化,也没有一个明确的语义区别。他们两个人没有讨论在语言的数据上识别隐喻。
因此到现在为止最有影响力的隐喻识别方式是由Wilks(1978)提出的违反了选择性限制的。即某个词违反了其所在位置上的语义约束限制。
如:My car drinks gasoline.
drinks 所在的位置应是有生命的主语 + 流动的宾语,这里显然不符。
隐喻识别的几种方法(模型)
1. 由Fass(1991)研发的met*,起源于Wilks(1978)的违反了选择性限制理论和手工编码知识,可以识别明喻、转喻、隐喻和异常。并通过查找抽象词来完成隐喻理解。但是(1)难以区分隐喻和其他方式的修饰,(2)有些隐喻的使用方式与常见的非修饰表达相近难以区分。举例如:My car drinks gasoline.
2. Goatly(1997)提出可以通过隐喻连接词来识别,例如:metaphorcially speaking。这种方法不能单独提取出隐喻,但是可以改进相对更复杂的隐喻识别系统。
3. Peters(2000)在词汇资源中检测比喻型语言,在WordNet中挖掘一词多义关系的同时捕捉隐喻和转喻关系。他们发现这些隐喻、转喻节点常常出现在抽象意思相同时,例如(supporting structure -thoery)。
4. The CorMet system(Mason,2004)是首个能自动发现本体和喻体对应关系的系统,通过对应词在不同领域内相互转换(上下文关系)得到结果。例如pour liquid(物理) – pour money(经济)。这里发现liqud和money存在隐喻关系。(准确率77%)
5. Brike and Sarkar(2006)通过基于相似性词义消歧法来实现(其实这里含隐喻句子可能存在一句多义)。消除歧义后的句子在找到相似的种句后标注为存在隐喻关系。(准确率53.8%)
6. Gedigan(2006)通过最大熵分类器实现。(95.12% propBank语料库)
7. Krishnakumaran and Zhu(2007) 通过上下文和对应的二义关系考虑动词、名词和形容词。例如:IsA关系。
自动隐喻理解的几种方法(模型)
1. Fass (1991), Martin(1990)提出了MIDAS,主要思想是通过抽象例子在特定领域查找更加一般的例子。例如一篇经济的文章中出现,pour liquid这样的句型。那么liquid在经济领域查找pour对应关系找到money为本体。通过pour找到关系。
2. KARMA系统(Narayanan)和ATT-Meta系统(Barndenand Lee,2002)结合使用。根据隐喻概念,开发了隐喻推理框架。通过编码知识找到喻体,然后再投影到本体域查找本体。但是只能用字段或者分析后的文本作为输入。
3. Veale and Hao(2008)通过插入、删除、替换部分词完成。举例:
Make-up =>
è typically worn by women
è expected to be worn by women
è must be worn by women
è must be worn by Muslim women
Burqa <=
可用的隐喻资源
喻体和本体对应关系表
第一个:Master Metaphor List
最杰出:MetaBank、the Mental Metaphor DataBank
多语言:Hamburg Metaphor Database
一般词汇资源
WordNet、ItalWordNet、EuroWordNet
语料库中的隐喻标记
(这一块没有完全看懂,仅供参考)
分为两步:识别文本中的隐喻意义,标记本体和喻体。
这里有一些传统的方式标记隐喻:
1. 根据使用了隐喻的词汇条目标记
2. 根据句子中的本体和喻体标记(使用较多)
3. 根据语言隐喻的标志标记
现在在语料库中标注概念性映射提供了一种新的思路。
一些隐喻识别方式中的隐喻标记:
1. Metaphor identificationprocedure(MIP)(Pragglejaz Group,2007)根据判断是否符合隐喻标准来定义词之间的隐喻关系和对应的本体、喻体的对应关系。主要面向动词。
2. Martin (2006)在处理一句句子的时候,先在本体喻体对应关系表中找到这句话中个别单词出现的概率,然后将两个相加得到这句话中含有隐喻的概率,来自动判断这句话是否含有隐喻,并确定本喻体。
例如:(P(Metaphor|Source) =0.069, P(Metaphor|Target) = 0.677,
P(Metaphor|Metaphor) = 0.703).
3. Shutova and Teufel (2010)先利用MIP来判断某句中是否含有隐喻,然后通过源域(基本意义上从哪里来)和目标域(给定的上下文)选择列表的类别。