论文标题: Context-Sensitive Lexicon Features for Neural Sentiment Analysis
机构: 新加坡科技设计大学
作者: Zhiyang Teng, Duy-Tin Vo and Yue Zhang
一句话总结:在BILSTM中融入情感词典并在twitter情感分析数据集实践,效果确实比没有融入情感词典的好。
会议:EMNLP2016
摘要:情感词典是情感分析方法中有利的特征来源。但是很多基于情感词典的方法没有考虑到上下文语义关系,而针对整个输入采用计数,计算长度总和或者最大化情感分数的方法。我们提出了一种基于上下文敏感的词典(context-sensitive lexicon-based),基于简单的加权模型,使用RNN学习情感词汇的强度strength、增强intensification和否定negation在具有情感的句子中的作用。结果不仅使用rnn学习到了情感词典的特征,在twitter情感分析数据集上效果还比没有使用情感词典的RNN好。
1.引言
情感词典包含单词的情感属性,例如单词极性和优势(?),它们可以提供word-level来分析句子情感我们研究了一种有效的方法来使用情感词典功能。
传统的判断文档document极性的方法是先计算出文档中所有情感词词的情感值总和( Turney, 2002; Hu and Liu, 2004)。这种方法在多个情感分析基准benchmarks中显示出令人惊喜的表现,且仍然是特定领域情感分析(金融、产品评论等)的常用做法。 还有利用了更复杂的句子级特征,如正负词技术,他们的总强度和最大强度等。这样的词典在SemEval语料集中非常有用的。但是他们都是基于词袋模型(bag-of-word),有两大限制:
-
一是不能很好地处理语义组成问题(semantic compositionality),如图1所示:criticism本来是负向词,-1,前面加上修饰insignificant之后,就表示无意义的批评 -0.5分;good是一个正向词,加上not very变成不是很好的,-0.25,换句话说就是否定词、程度副词会对情感极性产生影响。