摘要
本文旨在提出一种基于AT-LSTM模型的网民情感分析方法,旨在从海量的微博评论数据中提取网民的情感倾向,并通过深入剖析,揭示情感变化背后的原因。首先,运用Python爬虫技术,从微博社交媒体平台抓取了大量用户评论数据,并进行了标签化处理、中文分词和除停用词等一系列的数据预处理工作。然后,构建AT-LSTM模型对处理后的数据进行情感分类,通过引入注意力机制,使得模型能够在处理序列数据时,更加关注与情感分类相关的关键信息,模型在准确率、精确率和召回率等方面均取得了显著的优势。最后,我们通过词云图可视化手段,对网民情感变化及其背后的原因进行了深入剖析。通过分析词云图,可以发现网民在不同时间、不同事件下的情感倾向和变化趋势。结合具体事件和社会背景,可以进一步探讨情感变化背后的原因,为相关决策提供参考依据。
1.研究背景
随着移动互联网的普及和智能设备的不断智能化,人们能够随时随地接入互联网,表达自己的意见和看法,并参与各种社会话题的讨论,使互联网成为真正意义上的“社会舆论场”。这种自由、开放的环境为社交网络提供了情感交流的重要渠道,但同时也伴随着一定的情感风险。
2.论文大纲
随着移动互联网的普及和智能设备的不断智能化,人们能够随时随地接入互联网,表达自己的意见和看法,并参与各种社会话题的讨论,使互联网成为真正意义上的“社会舆论场”。这种自由、开放的环境为社交网络提供了情感交流的重要渠道,但同时也伴随着一定的情感风险。
3.相关技术介绍
3.1 数据获取及预处理
Python爬虫是一种利用Python语言编写的自动化脚本,用于从互联网上抓取、解析并提取有用的信息。爬虫架构的构建主要包括以下几个核心组件:数据源、调度器、解析器、存储器和反爬虫机制。这些组件协同工作,确保爬虫能够高效、稳定地获取并处理目标数据。
3.2中文情感分析
近年来,深度学习技术在自然语言处理、图像识别等领域快速发展,尤其在文本情感分析领域变得不可或缺。卷积神经网络、循环神经网络和长短时记忆神经网络等模型推动了情感分析技术的发展。
卷积神经网络通过将文本转换为二维矩阵,提取局部特征进行情感分类,有效处理文本局部依赖关系,提高准确性。循环神经网络通过引入循环结构,捕捉文本时序依赖关系。在处理长文本时,循环神经网络能记住前面信息,更好理解整体情感。但循环神经网络在处理长距离依赖时可能遇到梯度消失或爆炸问题。然而,长短时记忆神经网络解决了循环神经网络的问题,通过引入门控机制和记忆单元,有效处理长距离依赖关系,提高情感分析准确性。
除此之外,还有其他深度学习模型应用于文本情感分析,如基于注意力机制和自编码器的模型。这些模型通过引入不同机制和技术,不断提高情感分析准确。
4.系统的设计与实现
4.1 模型网络结构
本文提出的AT-LSTM模型共有六层:输入层、LSTM层、BN层、注意力层、全连接层和输出层。模型的网络结构图如图4.1所示:
输入层负责接收经过预处理的微博评论数据。这些数据首先被转换为词向量形式,以便模型能够理解和处理。每个样本包含特征向量和标签两部分,其中第n个样本的特征用xn表示,标签用yn表示。
LSTM层是模型的核心部分,负责捕捉输入序列中的时序依赖关系。通过将输入序列依次输入到LSTM网络中,模型可以学习到评论数据的长期依赖信息,进而更好地理解评论的情感倾向。
BN层(Batch Normalization层)用于对LSTM层的输出进行归一化处理,以缓解模型训练过程中的内部协变量偏移问题。通过BN层,模型可以更加稳定地进行训练,提高模型的收敛速度和泛化能力。
注意力层是AT-LSTM模型的关键部分,负责对输入序列进行权重分配。具体而言,该层会计算输入序列中每个元素的权重,使得模型在训练过程中能够自适应地关注重要的词语或短语。
4.2 实验模型对比分析
为了验证本文所提出的AT-LSTM模型的实际效用,本小节特地设计了一系列模型对比实验。在这些实验中,将AT-LSTM模型与业界广泛使用的SVM、RNN和LSTM模型进行了深入的对比分析。为了保障实验结果的公正性与可靠性,所有参与对比的模型均采用了相同的数据集作为训练与测试的基础。
4.3 系统实现
微博数据爬取界面左侧设有模块选择操作栏,用户可从中选择数据爬取、情感分析及词云图显示等模块。
在微博数据爬取界面,用户需输入目标微博ID及爬取页数,随后点击开始按钮以启动数据爬取过程。
在爬取完所需数据后会自动保存在“数据评论.csv”表格中,包括评论id、评论时间、评论点赞数、评论者姓名、评论内容等数据。然后是情感分析界面,情感分析界面可分为单条数据分析和多条数据分析两部分,单条数据分析时需要在输入框内输入想要分析的评论文字,然后点击“开始单条分析”按钮,情感分析结果则会在下方表格中显示,如图5.4所示;多条分析在点击“开始多条分析”按钮后会在自动分析“数据评论.csv”表格中的所有评论情感,并在下方表格中显示,如图5.5所示
在对“数据评论.csv”表格中所有的网民评论进行情感分析后,可进行情感词云图展示。点击“积极”按钮后,会生成积极情感的词云图;点击“消极”按钮后,会生成消极情感的词云图,如图5.6所示