在冰山一角之下：情绪分析研究的当前挑战和新方向。

最新推荐文章于 2023-02-12 20:42:23 发布

南楚巫妖

最新推荐文章于 2023-02-12 20:42:23 发布

阅读量1.6k

点赞数

分类专栏：情感分析论文翻译

本文链接：https://blog.csdn.net/yingdajun/article/details/106871505

版权

情感分析同时被 2 个专栏收录

2 篇文章

订阅专栏

论文翻译

1 篇文章

订阅专栏

摘要：自20年前作为一项任务首次引入以来，抽象情绪分析作为一个领域已经走过了很长的路。它在市场营销、风险管理、市场研究和政治等各个领域都有广泛的商业应用。考虑到它在特定子任务(如情绪极性分类)和数据集上的饱和，有一种潜在的看法认为这个领域已经成熟。在本文中，我们讨论这一看法，指出该领域的缺点和未被充分探索的关键方面，以获得真正的情感理解。我们分析了重要的飞跃负责其当前的相关性。此外，我们试图为这一领域绘制可能的路线，其中包括许多被忽视和未解的问题。

索引术语-自然语言处理，情绪分析，情绪识别，基于方面的情绪分析。

1.摘要：

内容分析，又称意见挖掘，是一个研究领域，旨在了解非结构化内容的潜在情绪。例如，在这句话“John不喜欢iPhone 7的摄像头”中，根据sentiment analysis的技术定义(Liu, 2012)， John扮演了一个持意见者的角色，暴露了他对实体iPhone 7的摄像头方面的负面情绪。(Pang et al.， 2002;情绪分析已经确立了自己作为一个有影响力的研究领域，在工业上有广泛的应用。个人、企业和政府想要了解人们对产品、政治议程或市场活动的看法，因此越来越受欢迎，需求也越来越大。公众意见也会刺激市场趋势，这使得它与财务预测相关。此外，教育和医疗行业使用情绪分析对学生和患者进行行为分析。

多年来，创新的范围和商业需求共同推动了情绪分析的研究。然而，在过去的几年里，出现了一种新的看法，认为情绪分析的问题仅仅是一个文本/内容分类任务——需要将内容分为两到三类情绪:积极的、消极的和/或中性的。这使得研究人员认为，情绪分析已经达到饱和状态。通过这项工作，我们着手解决这个误解。

从图1可以看出，在情绪分析的极性检测子任务上的许多基准数据集，如IMDB或SST-2，已经达到了饱和点，这可以从许多现代数据驱动方法所取得的近乎完美的分数中看出。然而，这并不意味着情绪分析就解决了。相反，我们认为，这种饱和的感觉是由于过多的研究出版物只关注肤浅的情感理解，比如k-way文本分类，而忽略了与该研究领域相关的其他关键的、尚未得到充分探索的问题。

Liu(2015)将情绪分析称为迷你NLP，因为它所依赖的主题几乎涵盖了整个NLP。类似地，Cambria等人(2017)将情绪分析描述为子任务和子问题的大箱子，涉及开放句法、语义和实用问题。因此，还存在许多有待广泛研究的开放性研究方向，如理解情感的动机和原因;情绪对话一代;情绪推理;等等。情感推理的核心是理解神经语言处理中的多个基本问题。这包括向方面分配极性、否定处理、解决协引以及识别句法依赖来利用情感流。情感分析也受到语言的比喻性的影响，语言的比喻性经常被语言手段所利用，如讽刺和反讽。多重任务的复杂组合使得情绪分析成为一个具有挑战性但有趣的研究领域。

图1:IMDB (Maas et al.， 2011)、SST-2、SST-5 (Socher et al.， 2013)和Semeval (Pontiki et al.， 2014)数据集上最新模型的性能趋势。任务涉及情绪分类在方面或句子水平。注:数据来自https://paperswithcode.com/task/senti-analysis。

图1还演示了以上下文语言模型为骨干的方法(非常像NLP的其他领域)支配了这些基准数据集。BERT (Devlin et al.， 2019)、RoBERTa (Liu et al.， 2019)等基于变压器的网络装备了数百万个参数，以及它们的变体将最先进的技术推向了新的高度。尽管性能得到了提升，但这些模型是不透明的，它们的内部工作原理也没有完全被理解。因此，剩下的问题是，自情绪分析开始以来，我们取得了多大的进展(Pang et al.， 2002)?

词汇、句法和语境特征的重要性在过去已经被多次承认。最近，由于强大的上下文化单词嵌入和像BERT这样的网络的出现，我们可以计算出更好的特征表示。这需要真正的情感理解吗?不太可能，因为我们在多方面的情绪研究方面还远远没有取得任何重大成就，比如表达情绪背后的潜在动机、情绪推理等等。我们相信，作为这个研究团体的成员，我们应该努力超越简单的分类作为进步的基准，而将我们的努力导向学习有形的情感理解。向这个方向迈出的一步将包括分析、定制和训练在情绪背景下的现代建筑，重点是细粒度分析和并行新方向的探索，如多模态学习、情绪推理、感知情绪的自然语言生成和比喻语言。

本文的主要目的是激励新的研究者接近这一领域。我们首先总结了过去二十年情绪分析研究中达到的关键里程碑(图3)，然后开始讨论新的和尚未被研究的情绪分析研究领域。我们也确定了情绪分析的几个子领域的一些关键的缺点，并描述了潜在的研究方向。本文并不是要对该领域进行调查——我们主要涵盖了少数对该领域产生重大影响或有潜力开辟新途径的关键贡献。因此，我们的目的是在情绪分析这一广泛领域中引起人们对关键研究课题的关注，并确定有待探索的关键方向。我们还发现了一些有前景的新框架和应用，这些框架和应用可能会在不久的将来推动情绪分析的研究。第二节简要介绍了情感分析研究的主要进展和成果;我们在第3节讨论了情绪分析研究的未来方向;最后，第四部分对本文进行总结。我们在图2中说明了本文的总体组织。我们在这个存储库上管理所有涉及情绪分析的过去和未来的文章(参见图2): https://github.com/declare-lab/awesome-sentiment-analysis.

2.怀旧的过去:情绪分析的发展和成就

情绪分析和意见挖掘领域——通常作为同义词使用——旨在确定情绪文本、音频流或多媒体视频形式的非结构化内容的极性。

图2:本文逻辑上分为两个部分。首先，我们分析过去的趋势和我们今天的立场在情绪分析文献。接下来，我们将展望情绪分析的未来，讨论几种应用和可能的新方向。图中的红色条估计了每个应用程序目前的流行程度。这些条的长度与2000年以来谷歌Scholar中相应主题的发表数的对数成正比。注:SA和ABSA是情绪分析和基于方面的情绪分析的首字母缩写。

2.1前期情绪分析

情绪分析的任务源于对句子中的主观性的分析(Wiebe等，1999;Wiebe, 2000;Hatzivassiloglou & Wiebe, 2000年;Yu & Hatzivassiloglou, 2003;Wilson等，2005)。Wiebe(1994)将主观句与说话人的私人状态联系起来，这种私人状态不允许观察或验证，表现为各种形式，如观点或信念。然而，情绪分析的研究成为一个活跃的领域，主要是在2000年以后，由于可获得的意见网上资源(Tong, 2001;森永等人，2002;Nasukawa & Yi, 2003)。情绪分析领域的一个开创性工作涉及基于它们的取向(情绪)对评论进行分类(Turney, 2002)。该研究通过列举几种句法规则，对短语级定向挖掘进行了概括(Hatzivassiloglou & McKeown, 1997)，并引入了用于情绪标记的词汇包概念。它是发展这一领域研究的早期里程碑之一。

尽管在此之前还有诸如识别情感等相关任务，但21世纪的到来标志着现代情绪分析的激增。

2.2粒度

传统上，情绪分析研究主要集中在三个粒度层次上(Liu, 2012, 2010):文档级、句子级和方面级情绪分析。

在文档级情绪分析中，目标是推断文件的总体意见，该文件被认为传达了对一个实体(如产品)的独特意见(Pang &Lee,2004;Glorot等，2011;Moraes等，2013b)。Pang et al.(2002)进行了一项文档级情绪分析的初期工作，他们将审阅文件的情绪分为正极性/负极性。他们使用了多种特征，包括unigrams (bag of words)和训练过的简单分类器，如朴素贝叶斯分类器和支持向量机。尽管主要框架为分类/回归任务，文档级情绪分析研究的替代形式还包括其他任务，如生成意见总结(Ku等，2006年;Lloret等，2009)。

句子级的情绪分析将分析局限于单个句子(Yu & Hatzivassiloglou, 2003;Kim & Hovy, 2004)。这些句子可能属于文档、对话，或者是在微博等资源中发现的独立微文本(Kouloumpis et al.， 2011)。

虽然文档级和句子级情绪分析都提供了一个总体的情绪取向，但在许多情况下，它们并不表明情绪的目标。他们有一个隐含的假设，即文本跨度(文档或句子)传达了对实体的单一情感，这通常代表了一个强有力的假设。

为了克服这个挑战，分析是针对一个更细的审查水平，即。，方面级情绪分析，其中情绪为每个实体(Hu & Liu, 2004b)(及其各方面)识别。方面级分析可以更好地理解情绪分布。我们将在3.1节中讨论方面级情绪分析的挑战。

2.3情绪分析应用趋势

基于规则的情绪分析:情绪分析研究历史的一个主要部分集中于使用带有情感的词和利用它们的组成来分析短语的极性单位。早期的研究发现，简单计数的价词，即。的方法，可以提供不正确的结果(Polanyi & Zaenen, 2006)。这导致了化合价转换的出现，结合了基于上下文用法的化合价和术语极性的变化(Polanyi和Zaenen, 2006;Moilanen & Pulman, 2007)。然而，只有效价转换不足以检测情感——它还需要理解情感在句法单位间的流动。因此，研究人员引入了建模情绪构成的概念，通过启发式和规则学习(Choi & Cardie, 2008)、混合系统(Rentoumi等，2010)、句法依赖(Nakagawa等，2010);Poria等，2014;Hutto & Gilbert, 2014)等。

情绪词汇是基于规则的情绪分析方法的核心。简单地定义，这些词典是包含对其组成词、短语或synset的情感注释的词典(Joshi et al.， 2017a)。

SentiWordNet (Esuli & Sebastiani, 2006)是建立在Wordnet (Miller, 1995)之上的一个流行的情感词汇。在该词典中，每一组词汇都被划分为积极、消极和客观的分数，以反映其主观倾向。由于标签是与synsets联系在一起的，主观性评分则与单词的词义联系在一起。正如Wiebe和Mihalcea(2006)所强调的那样，主观性和词意具有强烈的语义依赖性，因此这一特征是值得期待的。

其他流行词汇包括so - cal (Taboada et al.， 2011)、SCL-OPP (Kiritchenko & Mohammad, 2016a)、scnma (Kiritchenko & Mohammad, 2016b)等。这些词汇不仅储存了单词的极性联系，而且还试图包含反映复杂情绪组成的短语或规则，例如否定词、增强词。

虽然词典为词汇或短语的情绪极性的存档提供了宝贵的资源，但利用它们来推断句子层次的极性是一个相当具有挑战性的问题。此外，没有一个词汇能够处理所有从语义构成观察到的细微差别或解释语境的极性。词汇在创造的过程中也面临着许多挑战，比如反对注释中的主观性(Mohammad, 2017)。相反，统计解决方案为处理这些因素提供了更好的机会。

基于机器学习的情绪分析:使用机器学习的统计方法在这个领域很有吸引力，特别是因为它们独立于手工设计的规则。尽管尽了最大的努力，但规则永远不能被详尽地枚举，这总是使泛化能力受到限制。有了机器学习，学习通用表示的机会就出现了。在情感分析的发展,ML-based方式都监督和unsupervised-have采用各种算法,包括支持向量机(莫拉et al ., 2013),朴素贝叶斯分类器(Tan et al ., 2009),最近的邻居(穆贾达姆&酯,2010),结合特性,从bagof-words(包括加权变异)(马提瑙& Finin, 2009),词汇(加维兰et al ., 2016)等句法功能词类(Mejova & Srinivasan, 2011)。(Liu, 2010, 2012)对这些工作进行了详细的回顾。

深度学习时代:深度学习的出现，看到了使用分布嵌入和技术的表现学习，为各种任务的情绪分析。最初的模型之一是Socher等人(2013)的递归神经传感器网络(RNTN)，该模型通过建模句子中情绪的构成效应来确定句子的情绪。这项工作还提出了斯坦福情绪T reebank语料库，由完全标记情绪标签的解析树组成。采用递归神经网络对句法树中的组合结构建模的独特用法具有很强的创新性和影响力(Tai et al.， 2015)。

特征提取也使用了CNNs和RNNs。这些网络尤其是CNNs的受欢迎程度可以追溯到Kim(2014)。虽然CNN早前就已经在NLP系统中使用(Collobert等人，2011)，Kim(2014)的研究工作提出了一个简单(单层)的CNN架构，并深入研究了非静态嵌入的概念。它是一个流行的网络，成为了许多情绪分析任务事实上的句子特征提取器。与CNNs相似，RNNs也享有很高的知名度。不仅在极性预测方面，这些架构在aspect和opinion-term提取等结构化预测任务中也表现出了优于传统图形模型的优势(Poria et al.，2016;Irsoy & Cardie, 2014)。基于层次的情感分析尤其发现，涉及注意机制(Wang et al.， 2016)、记忆网络(Tang et al.， 2016b)和对抗性学习(Karimi et al.， 2020;陈等，2018)。全面回顾现代深度学习架构，请参阅(Zhang et al.， 2018a)。

尽管使用深度网络的大多数作品依赖于自动特征学习，但它们对注释数据的严重依赖往往是有限的。因此，通过句法信息提供归纳偏差，或者以词汇的形式提供外部知识作为额外输入的现象再次出现(Tay et al.， 2018b)。

如图1所示，近期基于神经结构的研究(Le & Mikolov, 2014;戴和乐，2015;Johnson & Zhang, 2016;Miyato等人，2017;麦肯等人，2017年;霍华德&罗德出版社，2018年;谢等，2019年;Thongtan & Phienthrakul, 2019)已经超越传统的机器学习模型(Maas et al.， 2011;Wang & Manning, 2012)。类似的趋势可以在其他基准数据集中观察到，如Yelp, SST (Socher et al.， 2013)和Amazon Reviews (Zhang et al.， 2015)。在神经方法中，就像NLP的其他领域一样，目前的趋势是由上下文编码器主导的，这些编码器使用Transformer架构预先训练成语言模型(Vaswani et al.， 2017)。BERT、XLNet、RoBERTa等模型及其改编已经在多个情绪分析数据集和基准上取得了最先进的性能(Hoang et al.， 2019;Munikar等人，2019年;Raffel等，2019)。尽管取得了这些进展，但尚不清楚这些新模型是学习了与情绪相关的成分语义，还是仅仅学习了表面模式(Rogers et al.， 2020)。

情绪感知的单词嵌入:深度学习架构的关键构建块之一是单词嵌入。众所周知，单词表示依赖于它被用于的任务(Labutov & Lipson, 2013)，然而，大多数基于情绪分析的模型依赖于通用单词表示。Tang et al.(2014)在这个方向上提出了一项重要的工作，为情绪分析提供了定制的词表征。虽然一般的嵌入将具有相似句法背景的单词映射到附近的表示中，但这项工作将情绪信息合并到学习损失中，以解释情绪的规律。尽管社区在这个主题上提出了一些方法(Maas et al.， 2011;Bespalov等人，2011年)，但前景有限(Tang等人，2015年)。此外，随着诸如BERT之类的上下文模型的流行，如何将情感信息整合到嵌入信息中还有待观察

微博中的情绪分析:微博中的情绪分析，如Twitter，与传统文本相比，需要不同的处理技术。由于篇幅有限，一个积极的方面是用户倾向于以一种直接的方式表达他们的观点。然而，讽刺和讽刺的案例经常挑战这些系统。推特上充斥着内部的俚语、缩写和表情符号——这增加了挖掘其中观点的复杂性。此外，有限的长度限制了通常出现在对话或文件中的上下文线索的存在(Kharde & Sonawane, 2016)

从数据的角度来看，这些微博中有大量的自以为是的数据。最近主要基于Twitter数据的基准共享任务反映了这一点。其中包括Semeval的情绪分析共享任务、基于方面的情绪分析和Twitter1、2、3、4中的比喻性语言。

Twitter用户中的一种新趋势是将多个tweet链接成更长的文本。然而，现有的研究并没有解决这一现象以获得额外的上下文。在未来的推特情绪分析工作中，可以根据用户的历史推文分析用户的个性。

3 .乐观未来:未来情绪分析趋势

上一节强调了情绪分析研究中的一些里程碑，帮助该领域发展到目前的状态。我们认为，尽管取得了进展，但随着新问题和新应用的出现，这些问题还远远没有得到解决。在本节中，我们对未来的情绪分析持乐观态度研究和突出几个应用程序充满开放的问题和挑战。

图4:这个例子说明了整体情绪分析所依赖的各种挑战和应用。

情绪分析的应用形式多种多样。章节2.3展示了一个这样的例子，其中一个用户正在与一个聊天风格的聊天机器人聊天。在对话中，为了做出合适的回应，机器人需要了解用户的意见。这涉及多个子任务，包括1)提取服务、实体航空公司的座位等方面，2)方面级情绪分析，以及了解3)谁持有观点和原因(情绪推理)。附加的挑战包括分析代码混合数据(例如“les meilleurs du monde”)，理解领域特定术语(例如，粗鲁的船员)，以及处理讽刺——这可能是高度上下文相关的，只有考虑到前面的话语时才能察觉。一旦话语被理解，机器人就必须确定适当的反应类型，并根据已决定的情绪执行受控nlg。整个例子展示了情绪分析对这些应用程序和子任务的依赖性，其中一些应用程序和子任务是新的，仍处于早期开发阶段。下面我们将讨论这些应用程序。

3.1基于方面的情绪分析

虽然情感分析提供了作者或演讲者情感的总体指示，但通常情况下，当一篇文章包含多个方面，并与它们相关的各种情感。举个例子，下面这句话“这个演员是唯一的失败，在一个辉煌的演员阵容。”在这里，意见附属于两个特定的实体，actor(消极意见)和cast(积极意见)。此外，也没有一个可以分配给整个句子的整体意见。

基于方面的情绪分析(ABSA)采用这种find粒度的观点，旨在识别对每个实体(和/或其方面)的情绪(Liu, 2015;Liu & Zhang, 2012)。问题涉及到两个主要的子任务,1)Aspectextraction,它标识了aspects5mentioned在给定的句子或段落(演员和演员在上面的例子中)2)Aspect-level情绪分析(Aspect-level情绪分析),这决定了情绪取向与相应的相关方面/意见目标(演员↦消极和铸↦积极)(胡&刘,2004)。提出的方面提取方法包括基于规则的策略(Qiu等，2011;Liu et al.， 2015)，主题模型(Mei et al.， 2007;He等，2011)，以及最近的序列模型，如CRFs (Shu等，2017)。在方面层面的情绪分析中，算法主要是建立意见目标与其语境之间的关系模型。为此，我们探索了基于CNNs (Li & Lu, 2017)、内存网络(Tay et al.， 2017)等模型。联想主要是通过注意机制来学习的(Wang et al.， 2016)。

尽管在这一领域取得了进展，但仍有许多因素有待研究，并具有进一步提高性能的潜力。我们在下面讨论。

4.总结

情绪分析通常被认为是一项简单的分类任务，将内容分为积极情绪、消极情绪和中性情绪。相比之下，情绪分析的任务是高度复杂的，并且受多种变量的控制，比如人的动机、意图、环境的细微差别。令人失望的是，情绪分析的这些方面仍未得到充分探索。通过本文的研究，我们试图偏离情绪分析作为一个研究领域已经饱和的观点。我们通过强调在情绪分析伞下跨越子任务的几个开放问题来反对这个谬论，例如方面级情绪分析、讽刺分析、多模式情绪分析、感知情绪的对话生成，等等。我们的目标是通过例子来揭穿与情绪分析相关的常见误解，并阐明几个未来的研究方向。我们希望这项工作能够帮助研究者和学生再次爱上这个非常有趣和令人兴奋的领域。