【知识总结】情感分类

  • 按其分析的粒度可以分为篇章级,句子级,词或短语级
    文本级别:通过完整文档或段落来获取情绪;
    句子级别:获得单句的情绪。
    子句级别:获得句子中,子表达的情感。
基本流程图

在这里插入图片描述

情感分类

任务:给定文本,识别其主观性文本的倾向,肯定or否定?正面或负面?

网络中存在 主 观 性 文 本 \color{red}{主观性文本} 客 观 性 文 本 \color{red}{客观性文本} ,而情感分类的对象是带有情感倾向的主观性文本,因此首先要进行文本的主观性分类。有两种类别的观点:直接性和比较性,例如A真的好和A比B好。有明确的,也有含蓄的

主观性分类:以情感词识别为主,利用不同的文本特征表示方法和分类器进行识别分类。主要研究思路:

  1. 基于语义的情感词典方法
  2. 基于机器学习的方法
基于语义的情感词典方法

(1)构建词典
情感词典是情感分类的基础,有4类词语:通用情感词、程度副词、否定词和领域词。
构建方法:利用已有词典扩展生成
做法:利用语义相似度计算方法计算词语与基准情感词集的语义相似度

(2)构建倾向性计算算法
利用情感词典和分析文本语句的特殊结构以及情感倾向词,采用权值算法或利用简单统计方法进行情感分类。根据情感强度给情感词赋予不同权值,然后进行加权求和

(3)确定阈值来判断文本倾向性
一般情况下,加权计算结果为正是正面倾向,结果为负是负面倾向 ,得分为零无倾向。所得结果评价一般采用自然语言中经常使用的正确率、召回率和 F 值来评判算法效果。

优点:不依赖标注好的训练集,实现简单,快速有效
缺点:粗粒度的分析,对词典构建要求比较高

基于机器学习的情感分类方法

(1)人工标注文本倾向性作为训练集
(2)提取文本情感特征
(3)机器学习方法构造情感分类器
(4)待分类文本通过分类器进行倾向性分类

常用的情感分类特征包括情感词,词性,句法结构,否定表达模板,连接,语义话题等.

.常用特征提取方法:信息增益,文档频率
分类方法:KNN,Bayes,SVM,CRF,最大熵分类器等

深度学习方法

用word embedding + DNN或者 Language model + Decoder




情感分析的类型

  • 细粒度情感分析

了解评论的极性水平,例如5星评级

  • 情绪检测

旨在检测诸如快乐,沮丧,愤怒,悲伤等情绪,采用词典(即单词列表和它们传达的情感)或复杂的机器学习算法

  • 基于Aspect的情感分析

“相机的电池续航不行”,说相机不行,但是更注重的是电池方面的不行,针对产品的特定方面

  • 意图分析

检测人们通过文本做什么;“如何更换墨盒?”

实现情感分析

  • 基于规则(手动指定规则)
  • 自动系统(机器学习)
  • 混合系统(基于规则和自动方法)

情感分析评估标准:

精确度,召回率和准确度是用于评估分类器性能的标准度量

  • Precision 精确率:预测为1的样本中,多少被正确分类
  • Recall召回率:实际为1的样本中,多少被成功预测
  • Accuracy准确率:所有文本中,被预测正确的文本

情感分析的挑战

主观性和语气

事实上,所谓的客观文本不包含明确的情绪。分析以下两个文本的情绪:“包很好。”“包裹是红色的。”
所有谓词(形容词,动词和某些名词)在创造情绪方面不应该被视为相同。 在上面的例子中,nice比red更主观。

语境和极性
反讽和讽刺
比较
表情符号
定义中性

包括客观文本,无关信息,包含愿望的文本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值