基于多输入模型及句法结构的中文评论情感分析方法

92a2c891614975707e95fde463850940.png

点击上方蓝字关注我们

8bad7efe2eccf29bbce3da15259a5532.png

基于多输入模型及句法结构的中文评论情感分析方法

张宝华1, 张华平1, 厉铁帅2, 商建云1

1 北京理工大学计算机学院,北京 100081

2 中央军事委员会政法委员会,北京 100120

 摘要海量的网络文本给情感分析任务带来了巨大的机遇和挑战,传统基于规则的方法已经很难胜任这类文本的分析工作,现有的深度学习方法存在一些不足,一方面模型的输入只包括文本嵌入矩阵,缺乏其他特征的使用;另一方面,词嵌入算法会导致文本结构信息缺失,进而影响分析效果。在对基于规则的情感分析方法中的句法规则进行研究的基础上,提出了一种结合MCNN、LSTM和全连接神经网络的多输入模型。同时在深度学习模型中构建了句法特征提取器来提取句法特征。在3个公开数据集上进行了实验,结果表明,构建的模型较其他模型拥有更好的分类性能,且句法规则特征的引入对模型的分类效果有一定的提升。

关键词  情感分析 ; 句法规则 ; 多输入模型

8163f8dcae57259cefbfd06ecc4e02a1.png

论文引用格式:

张宝华, 张华平, 厉铁帅, 等. 基于多输入模型及句法结构的中文评论情感分析方法[J]. 大数据, 2021, 7(6): 41-52.

ZHANG B H, ZHANG H P, LI T S, et al. Chinese comment sentiment analysis method based on multi-input model and syntactic structure[J]. Big Data Research, 2021, 7(6): 41-52.

52e0476e398a719cd6c3c9173a5de7c9.png

1 引言

随着智能电子设备的普及和网络的发展,大量的社交媒体及电商平台开始走入人们的生活,人们在日常使用过程中会产生海量的评论数据。合理利用观点挖掘技术可以从这些数据中获取巨大的价值,如对电商评论数据进行观点挖掘,可以分析得出商品的优缺点,商家可以对其进行修改;对影评数据进行挖掘,可以看到当前电影的缺点和优点,方便用户进行选择,也方便出版方的宣传工作;对新闻评论区等数据进行挖掘,可以掌握当前群众的态度。情感分析作为观点挖掘的主要技术之一,面临着巨大的挑战。

新词频出、长短不一、结构不定是网络评论数据的主要特点。严重依赖情感词典的传统规则情感分析方法一方面由于情感词典中缺少网络新词,无法得到新词的正确情感权重,在计算时只能忽略这部分词;另一方面又因为网络文本的结构不定,使用现有的规则对网络文本结构进行分析会出现一定的误差,导致该方法对这类数据的分析效果很差。而基于深度学习的分析方法虽然在分析效果上较好,但也存在一些问题。首先,单一的神经网络模型在处理文本数据时会因为模型本身存在的结构缺陷,造成部分情感特征的损失,从而导致分析准确率较低;其次,现有神经网络模型需要将文本数据映射到向量空间,构建文本向量矩阵之后进行模型运算,但是在这个过程中丢失了在传统方法中对句子情感有很大影响的结构信息;最后,现有的情感分析模型已经开始研究如何将规则方法中使用的一些特征加入深度学习方法中,但是其仍然以输入全部文本数据为主,缺少对其他特征的提取。

虽然基于规则的方法的分析效果要弱于深度学习方法,但是基于规则的方法中的句法规则特征在深度学习方法中仍然具有很重要的作用。因此,需要构建一种新的模型,将这部分句法规则特征融入神经网络模型 。为了结合不同模型的优点,并将句法结构规则引入深度学习模型中,本文构建了基于多输入模型及句法结构的神经网络模型。该模型同时将文本向量、情感词向量和语法规则向量输入独立的神经网络模型中,并对模型提出的特征进行拼接,从而得到更加全面的文本特征。实验证明,本文提出的神经网络模型较其他模型的效果更好。

本文主要有以下贡献:

● 本文提出了一种结合多通道卷积神经网络(multi-channel convolutional neural network,MCNN)、长短期记忆(long short-term memory,LSTM)网络和全连接神经网络的合并模型MCNN_S_LSTM_NN,该模型可以结合单个模型的优势,从文本评论中获取更全面的情感特征,从而提高情感分析的准确率;

● 本文针对每部分模型的特点,设计了不同的模型输入,可以从不同的角度对文本进行特征提取;

● 本文首先将句法结构、标点符号等在基于情感词典的情感分析方法中会用到的分析规则应用到深度学习中。同时,本文构建了句法规则提取器,可以直接对文本规则进行提取,并映射到向量空间,作为深度学习模型的输入。

2 相关工作

深度学习方法最早由Collobert R等人 在2011年应用到自然语言处理领域,用于解决词性标注等问题。2014年,Kim Y首先在文本分类方面使用卷积神经网络(convolutional nearal network, CNN),并且取得了很好的分类效果。之后Kalchbrenner N 等人提出了一种宽卷积模型,并选择用k-max池化代替传统CNN的最大池化来保留更多的特征。Zhang Y L等人通过多次重复实验,比较了不同超参数对CNN模型结构在性能和稳定性方面的影响。Gao J等人和She n Y L等人介绍了如何将句子表示成包含语义的结构。Zha ng R等人提出了可有效获取句子依赖信息的CNN模型,通过处理预训练的词嵌入来构建分层的文本表示。CNN常被用于捕获

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值