1.语义分析的任务
(1)词的层面:词义消歧/词义标注(word sense disambiguation,WSD)
(2)句子层面:语义角色标注(semantic role labeling,SRL)
(3)篇章层面:指代消解/共指消解(coreference resolution)
2.词义标注/词义消歧
(1)含义
对于一个多义词,根据该词所处的上下文环境,给出该词的语义。
即词义消歧可以转化为上下文的分类问题。
(2)研究方法
1)基于规则的方法
2)基于词典的方法
3)基于大规模并行语料的统计机器学习方法
有监督的方法:将词义消歧问题看作上下文分类问题。
无监督的方法:
(1)首先确认是个多义词
将一个词的上下文进行聚类,若最终形成多个类,则证明这是个多义词
(2)确认该词的语义
对该多义词在文章中的上下文与该词的多个上下文聚类进行比对,通过上下文等价类的确定来确定该词在该上下文中的 语义。
(3)词义消歧的有监督的方法
1)基于上下文与互信息的消歧方法
互信息:度量两个事件集合之间的相关性(mutual dependence)。互信息是点间互信息(PMI)的期望值。互信息最常用的单位是bit。
互信息的公式:
过程:
2)基于贝叶斯分类器的消歧方法