自然语言处理前沿研究之细粒度情感分析

最新推荐文章于 2025-01-19 14:00:00 发布

置顶

ljiangf_buaa

最新推荐文章于 2025-01-19 14:00:00 发布

阅读量9.3k

点赞数 19

分类专栏：自然语言处理原理文章标签：自然语言处理

本文链接：https://blog.csdn.net/weixin_44478207/article/details/107389646

版权

自然语言处理前沿研究之细粒度情感分析

情感分析综述

文本情感分析：又称意见挖掘、倾向性分析等。简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。对于意见、情感或观点，我们进行如下建模：对于给定的文本d，任务从文本中获取（e，a，s，h，t）五元组，即态度持有者h在t时间（条件下）对实体e的a方面有观点s。传统情感分析任务主要为情感分类，即确定s的极性。

从分析的粒度上，情感分析可以分为文章级(document level)、句子级(sentence level)和单词级(word level)情感分析，其中句子级情感分析在前沿领域有细粒度的情感分析。细粒度的情感分析在完成传统任务情感分类的基础上，还可以确定观点（情感）s针对了对象的哪一方面。例如，“这家餐厅披萨很好吃但是服务太差了”这句话，通过细粒度的分析可以提取出（披萨，+），（服务，-）。细粒度的情感分析可以进一步细分为三个小任务，分别是对象抽取（aspect extraction），对象级情感分类（aspect-level sentiment analysis）以及通过单个模型完成上述两个任务的方法（协同训练）。

本文首先简要介绍传统情感分析任务与方法，之后详细介绍细粒度情感分析相关前沿。

传统情感分析任务与方法

传统情感分析主要为情感分类，是nlp入门级的任务，相信很多人都做过豆瓣的影评情感分类（二分类），使用SVM等传统机器学习方法就可以很轻松的得到90%以上的准确率。但是很少有人想过：为什么豆瓣影评数据集只包含正面情感、负面情感两个类别，不应该有更多的数据是中性的吗？例如：“这个电影的主要内容是关于爱情的”，这样一个句子，很难说是包含了情感极性，而使用豆瓣影评数据集训练出来的模型，真的能够实际在豆瓣影评数据中进行分析吗？这恐怕是不行的，因为它没有能力处理大量的中性数据。

因此，当我们说传统情感分析是入门级的任务，我们默认了我们要去进行二分类，二分类哪怕使用传统机器学习模型，也可以很轻松的跑到95%以上的准确率，就是一个小学生，学会了编程，也能很好的解决二分类的任务。但是如上文所述，二分类的任务一般缺乏现实依据，其数据集往往是精挑细选的，当传统情感分析涉及三分类甚至五分类时，准确率会直线下滑。根据论文Deep Learning-Based Sentiment Classification: A Comparative Survey（2020），三分类任务在不同数据集上准确率为70%-85%，五分类任务准确率在60%左右。

一般对于显示数据集，三分类（正面、负面、中性）就可以很好概括数据集中的所有情况了，但是三分类任务哪怕在万能的深度学习方法的加持下，也只能达到75%左右的准确率。这是由于以下几个原因造成的：

现有模型对于语义的理解十分不直观，也很难计算全面。例如，句子“我不认为他不是一个好人”，包含了多重否定，在早期基于规则的方法下，这种情况就很难解决，在深度学习背景下，人们使用CNN去获取句子的局部语义信息，但是对于长句子，往往效果不好。或是使用RNN、LSTM去对句子进行顺序的记忆，但是由于储存空间有限，存在“遗忘”的现象。如何通过修改模型或引入更多语义信息（如pos或依存句法），来解决这一难题，是重要的研究方向之一。
现有模型对于特定领域词义的考虑不足，如何训练针对特定领域的词向量，或是通过大量领域a的数据，训练领域b的模型，来提高模型对特定领域的效果，是未来的重要研究方向之一。
现有模型对于知识的引入考虑不足，如何应用知识图谱等技术，使模型将知识引入计算，来提高模型的学习能力和可解释性，是未来的研究方向之一。

综上，尽管传统情感分析是入门级的任务，但其中也包含着大量未解决的内容，联系着很多NLP领域的核心问题。现在，尽管更多顶会（ACL、NAACL、EMNLP）新论文是关于细粒度情感分析的，但是每年还是会有5篇左右顶会论文用于改进传统情感分析。相信未来会在这一方面取得突破性的进展。

细粒度情感分析任务与方法

在上文，我们通过（e，a，s，h，t）五元组，即态度持有者h在t时间（条件下）对实体e的a方面有观点s，定义了情感分析问题。传统情感分析任务主要为情感分类，即确定s的极性。细粒度情感分析在传统情感分析的基础上，能够分析对于实体e的方面a，所表达的情感极性s。细粒度的情感分析在完成传统任务情感分类的基础上，还可以确定观点（情感）s针对了对象的哪一方面。例如，“这家餐厅披萨很好吃但是服务太差了”这句话，通过细粒度的分析可以提取出（披萨，+），（服务，-）。细粒度的情感分析可以进一步细分为三个小任务，分别是对象抽取（aspect extraction），对象级情感分类（aspect-level sentiment analysis）以及通过单个模型完成上述两个任务的方法（协同训练）。

近三年来，细粒度情感分析的文章在nlp相关顶会之中大放异彩。越来越多的学者开始关注细粒度情感分析问题。