情感分析

情感分析

情感分析

分析文本中作者对特定主体的情感偏好和观点一件,用于决策支持和舆情分析。情感分析可以用于预测电影票房、改进服务及产品、了解用户的体验等。

主题无关的情感分析

目前绝大多数针对文本的情感分析都是主题无关的情感分析,即针对一段文本判断其总体的情感极性。情感的对象是真个文本,而不是文本中特定的被描述的对象或者主题。大致分为三类方法:

  • 基于情感字典的方法:主要是将情感词表与人工制定的规则相结合。最朴素的做法是直接统计待分析文本中的积极情感词和消极情感词汇的个数,然后直接判别。最大问题是:情感词典中的词汇量有限,无法判别生僻或者新兴的词汇的情感极性。(Wordnet传播算法构建特定领域相关的情感词典,而不是通用)
  • 基于人工标注数据的机器学习方法,需要对文本进行特征提取。常见的特征提取包括:否定词提取、一元词提取、二元词提取、词性标准等。
  • 基于噪声标注数据的机器学习方法,标注是使用微博特有的表情或者hashtag 标记。避免了大量的人工标记工作,训练数据可以通过计算机程序大量获取。

主题相关的情感分析,情感的对象不是整段文本,而是文本中特定的被描述的对象或者主题。

  • 基于规则的方法
  • 基于依存句法分析的机器学习方法

算法模型

ESLAM(emotion smoothed language model)

基于表情平滑的语言模型。基本思想是通过人工标注的训练数据训练一个语言模型,然后使用含有噪声的表情标注数据去做平滑处理。

基于人工标准的算法。

  • 将积极情感文档编程一个合成的积极情感文档,然后一个合成的消极情感文档也随之产生;
  • 通过两个文档,学习出两个情感语言模型。
  • 对一条待判别的短文当做一个查询短语,去查看此短语在哪个语言模型中中的可能性高,可能性高的语言模型所代表的情感类别会作为情感分类的结果。
    这里写图片描述

基于噪声标注的算法

ESLAM:基本思想是无缝的集成两种不同的数据,将其整个到统一的框架。
主要是利用平滑的手段进行整合。
这里写图片描述

主题相关的情感分析

如何在中文社交媒体新浪微博的短文本上进行主题相关的情感分析,包括如何收集大规模噪声标记数据、如何再此类数据上通过依存句法分析提取主题相关的特征以及使用的分类算法支持向量机。在主题相关的情感分析中,情感的对象不是整段的文本、而是文本中特定的被描述的对象或者主题。

基于依存分析的主题相关特征提取算法

StanfordParser是进项依存分析。一个自然语言解析器是用来解析出一个句子的句法结构,比如那些词连接在一起组成一个词组。依存关系是句子中单词之间的语法关系表示,他们被设计为易于理解和使用。每一个具体的依存关系都是三元组:关系名称、主导者、依赖者。

StandfordParser首先对中文文本分词,然后生成语法结构树,在得到词语直接的关系。
这里写图片描述
这里写图片描述

参考文献:
[1] 短文本情感分析 –刘坤林

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值