《Hunting Elusive MetaphorUsing Lexical Resources》读书笔记

Hunting Elusive MetaphorUsing Lexical Resources – Note

概述

这篇文章主要整理了一些区分隐喻句和普通句的算法这些算法,主要基于WordNet英语字典和二元文法统计(主要考虑两个词之间的关系)。

简介

隐喻,简而言之就是用某一概念去解释另一概念。隐喻识别理解技术可以运用到很多自然语言处理问题,比如:机器翻译、文本摘要、信息检索等。

本文利用名词关系来解决隐喻识别:主宾结构、动词-名词关系以及形容词名词关系。这篇文章中提到的算法主要利用了WordNet中的下位词关系和词的二元关系,并以此来规避了两个问题:标记的预料缺乏、隐喻没有清晰的训练特征。

隐喻又分活喻和死喻。死喻举例:head teacher。

下位词关系举例见图:

本文中隐喻的分类及识别方法

这里用到的bigram关系全部来自the WEB 1T corpus

1.      Subject IS-A Object

He is a brave lion.

方法:下位词启发法

举例:All theworld is a stage.

其中world和stage虽然有主宾关系,但是根据wordNet中的检测结果他们二者没有上下位词关系,故判断该句为隐喻句。

主要思想:对于一个句子取出它的关于be的主宾二元关系,判断是否为上下位词关系

2.      Verb-Noun(subject-verb\verb-object)

He planted good ideas in their minds.

对于plant-idea,查找所有与plant对应的名词,并计算两次同时出现的概率,并依概率降序排序,选出概率最大的几个(数量由给定阈值确定),逐一判断这些新选出的词是否和idea有上下位关系,若有则记为普通用法,全部没有则记为隐喻情况。

方法:下位词启发法、词同现信息

3.      Adjective-Noun

He has a fertile imagination.

下位词启发法、词同现信息

算法同Verb-Noun。

常见难题

1.      上下文敏感问题:Men are animals.这句话在生物领域的文章中不算隐喻。

2.      代词消解问题:it的指代常不明,需要自动替换。

3.      词组用法不同:He is a Gandhi. Vs He is Gandhi.字面差别只有a,但是含义不同。

4.      语法分析器效率:抓取二元关系不准确。

5.      死喻的影响。

 

前人的努力

1.      选择偏好(Fass and Wilks, 1983).

2.      基于词搭配及出现情况、语法特征的监督学习算法(Market and Nissim,2002).

3.      MetaBank隐喻库(Martin,1994).

4.      利用明喻关键词(like\such as)(Goatly,1997).

5.      CorMet(Mason, 2004)在特定语料库中查找不常用的语法和确定的隐喻关系。

6.      利用词与词的路径长短(Dolan,1995)

资源&语料库

1.      The Web IT corpus(Brants andFranz, 2006)

其中包含一些多元关系,最高达到五元关系。

2.      The Berkeley Master MetaphorList

其中包含了1728个与隐喻有关典型句子或短语。

3.      原文中给出的本文使用的已标记数据链接已失效。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值