前言
情感分析,也称倾向性分析,即对一个主观的文本分析判断说话者的情感色彩或者褒贬态度。传统的方法一般有基于情感词典(构建情感词典后统计文本极性词进行判断)和基于机器学习(使用词袋模型对词语向量化后利用机器学习方法训练分类器),但结果往往差强人意。本周阅读的两篇论文都是基于神经网络对文本进行情感分析,一篇是针对句子级别的文本,另一篇是针对篇章级别的文本。下面进行简单介绍。
Deep Convolutional Neural Networks for Sentiment Analysis of Short Texts
本文的主要结构是输入一个句子文本,经过两层CNN转化成一个sentence-level的向量,然后将这个向量输入到一个3层的神经网络中,经过训练得到正确的分类。
1 Word-Level and Character-Level Embeddings
文中提出一种组合的Word embedings的形式,即把每个词通过word2vec训练得到一个word-level的向量 rwrd ,然后把组成每个词的字母字符也训练得到一个character-level的向量 rwch ,这样有利于同时捕捉到语义信息和词形态信息,(比如一些程度副词: terribly,badly )组合得到一个新的词向量 un=[rwrd,rwch]
rwrd 利用word2vec训练得到的向量表示, rwch 需要通过一层CNN进行训练得到。思路如下:
假设词w由M个字母组成,每个字母通过一个character embedding matrix转化成一个向量 rchr ,即 r