Hunting Elusive MetaphorUsing Lexical Resources – Note
概述
这篇文章主要整理了一些区分隐喻句和普通句的算法这些算法,主要基于WordNet英语字典和二元文法统计(主要考虑两个词之间的关系)。
简介
隐喻,简而言之就是用某一概念去解释另一概念。隐喻识别理解技术可以运用到很多自然语言处理问题,比如:机器翻译、文本摘要、信息检索等。
本文利用名词关系来解决隐喻识别:主宾结构、动词-名词关系以及形容词名词关系。这篇文章中提到的算法主要利用了WordNet中的下位词关系和词的二元关系,并以此来规避了两个问题:标记的预料缺乏、隐喻没有清晰的训练特征。
隐喻又分活喻和死喻。死喻举例:head teacher。
下位词关系举例见图:
本文中隐喻的分类及识别方法
这里用到的bigram关系全部来自the WEB 1T corpus
1. Subject IS-A Object
He is a brave lion.
方法:下位词启发法
举例:All theworld is a stage.
其中world和stage虽然有主宾关系,但是根据wordNet中的检测结果他们二者没有上下位词关系,故判断该句为隐喻句。
主要思想:对于一个句子取出它的关于be的主宾二元关系,判断是否为上下位词关系。
2. Verb-Noun(subject-verb\verb-object)
He planted good ideas in their minds.
对于plant-idea,查找所有与plant对应的名词,并计算两次同时出现的概率,并依概率降序排序,选出概率最大的几个(数量由给定阈值确定),逐一判断这些新选出的词是否和idea有上下位关系,若有则记为普通用法,全部没有则记为隐喻情况。
方法:下位词启发法、词同现信息
3. Adjective-Noun
He has a fertile imagination.
下位词启发法、词同现信息
算法同Verb-Noun。
常见难题
1. 上下文敏感问题:Men are animals.这句话在生物领域的文章中不算隐喻。
2. 代词消解问题:it的指代常不明,需要自动替换。
3. 词组用法不同:He is a Gandhi. Vs He is Gandhi.字面差别只有a,但是含义不同。
4. 语法分析器效率:抓取二元关系不准确。
5. 死喻的影响。
前人的努力
1. 选择偏好(Fass and Wilks, 1983).
2. 基于词搭配及出现情况、语法特征的监督学习算法(Market and Nissim,2002).
3. MetaBank隐喻库(Martin,1994).
4. 利用明喻关键词(like\such as)(Goatly,1997).
5. CorMet(Mason, 2004)在特定语料库中查找不常用的语法和确定的隐喻关系。
6. 利用词与词的路径长短(Dolan,1995)
资源&语料库
1. The Web IT corpus(Brants andFranz, 2006)
其中包含一些多元关系,最高达到五元关系。
2. The Berkeley Master MetaphorList
其中包含了1728个与隐喻有关典型句子或短语。
3. 原文中给出的本文使用的已标记数据链接已失效。