自然语言处理前沿研究之细粒度情感分析
情感分析综述
文本情感分析:又称意见挖掘、倾向性分析等。简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。对于意见、情感或观点,我们进行如下建模:对于给定的文本d,任务从文本中获取(e,a,s,h,t)五元组,即态度持有者h在t时间(条件下)对实体e的a方面有观点s。传统情感分析任务主要为情感分类,即确定s的极性。
从分析的粒度上,情感分析可以分为文章级(document level)、句子级(sentence level)和单词级(word level)情感分析,其中句子级情感分析在前沿领域有细粒度的情感分析。细粒度的情感分析在完成传统任务情感分类的基础上,还可以确定观点(情感)s针对了对象的哪一方面。例如,“这家餐厅披萨很好吃但是服务太差了”这句话,通过细粒度的分析可以提取出(披萨,+),(服务,-)。细粒度的情感分析可以进一步细分为三个小任务,分别是对象抽取(aspect extraction),对象级情感分类(aspect-level sentiment analysis)以及通过单个模型完成上述两个任务的方法(协同训练)。
本文首先简要介绍传统情感分析任务与方法,之后详细介绍细粒度情感分析相关前沿。
传统情感分析任务与方法
传统情感分析主要为情感分类,是nlp入门级的任务,相信很多人都做过豆瓣的影评情感分类(二分类),使用SVM等传统机器学习方法就可以很轻松的得到90%以上的准确率。但是很少有人想过:为什么豆瓣影评数据集只包含正面情感、负面情感两个类别,不应该有更多的数据是中性的吗?例如:“这个电影的主要内容是关于爱情的”,这样一个句子,很难说是包含了情感极性,而使用豆瓣影评数据集训练出来的模型,真的能够实际在豆瓣影评数据中进行分析吗?这恐怕是不行的,因为它没有能力处理大量的中性数据。
因此,当我们说传统情感分析是入门级的任务,我们默认了我们要去进行二分类,二分类哪怕使用传统机器学习模型,也可以很轻松的跑到95%以上的准确率,就是一个小学生,学会了编程,也能很好的解决二分类的任务。但是如上文所述,二分类的任务一般缺乏现实依据,其数据集往往是精挑细选的,当传统情感分析涉及三分类甚至五分类时,准确率会直线下滑。根据论文Deep Learning-Based Sentiment Classification: A Comparative Survey(2020),三分类任务在不同数据集上准确率为70%-85%,五分类任务准确率在60%左右。
一般对于显示数据集,三分类(正面、负面、中性)就可以很好概括数据集中的所有情况了,但是三分类任务哪怕在万能的深度学习方法的加持下,也只能达到75%左右的准确率。这是由于以下几个原因造成的:
- 现有模型对于语义的理解十分不直观,也很难计算全面。例如,句子“我不认为他不是一个好人”,包含了多重否定,在早期基于规则的方法下,这种情况就很难解决,在深度学习背景下,人们使用CNN去获取句子的局部语义信息,但是对于长句子,往往效果不好。或是使用RNN、LSTM去对句子进行顺序的记忆,但是由于储存空间有限,存在“遗忘”的现象。如何通过修改模型或引入更多语义信息(如pos或依存句法),来解决这一难题,是重要的研究方向之一。
- 现有模型对于特定领域词义的考虑不足,如何训练针对特定领域的词向量,或是通过大量领域a的数据,训练领域b的模型,来提高模型对特定领域的效果,是未来的重要研究方向之一。
- 现有模型对于知识的引入考虑不足,如何应用知识图谱等技术,使模型将知识引入计算,来提高模型的学习能力和可解释性,是未来的研究方向之一。
综上,尽管传统情感分析是入门级的任务,但其中也包含着大量未解决的内容,联系着很多NLP领域的核心问题。现在,尽管更多顶会(ACL、NAACL、EMNLP)新论文是关于细粒度情感分析的,但是每年还是会有5篇左右顶会论文用于改进传统情感分析。相信未来会在这一方面取得突破性的进展。
细粒度情感分析任务与方法
在上文,我们通过(e,a,s,h,t)五元组,即态度持有者h在t时间(条件下)对实体e的a方面有观点s,定义了情感分析问题。传统情感分析任务主要为情感分类,即确定s的极性。细粒度情感分析在传统情感分析的基础上,能够分析对于实体e的方面a,所表达的情感极性s。细粒度的情感分析在完成传统任务情感分类的基础上,还可以确定观点(情感)s针对了对象的哪一方面。例如,“这家餐厅披萨很好吃但是服务太差了”这句话,通过细粒度的分析可以提取出(披萨,+),(服务,-)。细粒度的情感分析可以进一步细分为三个小任务,分别是对象抽取(aspect extraction),对象级情感分类(aspect-level sentiment analysis)以及通过单个模型完成上述两个任务的方法(协同训练)。
近三年来,细粒度情感分析的文章在nlp相关顶会之中大放异彩。越来越多的学者开始关注细粒度情感分析问题。
Aspect Extraction
对象抽取(aspect extraction)的任务在过去的十几年之间均有研究。早期任务往往使用基于规则或者语法的方法,这种