语义计算的任务:解释自然语言句子或篇章各部分(词、词组、句子、段落、篇章)的含义。
面临的困难:
- 自然语言句子中存在大量的歧义,涉及指代、同义、多义、量词的辖域、隐喻等
- 同一句子对于不同的人来说可能有不同的理解
- 语义计算的理论、方法、模型尚不成熟
格语法
语义网络
事件的语义关系
优点:
- (1)直接而明确地表达概念的语义关系,模拟人的语义记忆和联想方式;
- (2)可利用语义网络的结构关系检索和推理,效率高。
缺点:它不适用于定量、动态的知识;不便于表达过程性、控制性的知识
概念依存理论
CD理论的三个层次:
基本动作
剧本
计划
词义消歧
1.早期基于规则的消歧方法
2.统计机器学习消歧方法(基本思路:一个词的不同语义一般发生在不同的上下文中。)
- 有监督学习方法
- 无监督学习方法
3.基于词典信息的消歧方法
语义角色标注
基本方法:
- 基于短语结构句法分析的SRL方法
- 基于依存关系的SRL方法
- 基于语块分析的SRL方法
主要问题:
- 对句法分析器性能的严重依赖性
- 领域适应能力差
词向量表示
基于文本的词汇语义表示模型
- 共现矩阵方法
神经网络方法——基于文本学习词汇语义表示
- 用周围词预测中间词的方法―连续词包模型(CBOW)
- 连续skip-gram模型:通过中间词预测周围词的概率
基于图像学习词汇语义表示
- 特征描述子,如SIFT算法,直接提取图像的关键点等特征
基于语音学习词汇语义表示
- 利用声学特征
基于多模态信息学习词汇语义表示
基于人脑的成分语义表征
文本情感分析
也称为观点挖掘(OpinionMining),是针对人们对实体(包括产品、服务、组织、个人、议题、事件、话题及他们的属性等)表达的观点、评价、态度和情感进行计算的研究。
按分析粒度分为:
- 篇章级情感分析
- 句子级情感分析
- 方面级情感分析