情感分析之数据获取与预处理

最新推荐文章于 2024-07-25 11:44:50 发布

暖一杯茶灬

最新推荐文章于 2024-07-25 11:44:50 发布

阅读量2.6k

点赞数 1

分类专栏：基于深度学习的微博热点事件情感分析文章标签：自然语言处理神经网络 pytorch 深度学习 nlp

本文链接：https://blog.csdn.net/weixin_45862050/article/details/107446356

版权

数据准备工作

本次实验的所用数据全部来自2019年新浪微博热点事件的评论。知微数据分析平台给出了2019年微博热点事件榜单，从人民日报等用户度关注较高且较权威的新闻媒体爬取评论数据，共计4万余条。

在爬取的数据中，含有噪声数据，需要进行数据清洗。本次主要清洗两类数据，分别是含有用户名的数据和小于4字符的数据，这些评论中大部分不包含任何情感信息，干扰实验结果，因此全部清除掉。

清洗准则索引	清洗类别	数据实例
1	含有用户名	数据实例
2	小于4字符	你说呢？

本文将所有数据分成两大类：正向情感与负向情感。分类准则如下表所示：

情感标签	情感类别	情感细分
1	正向情感	建议、感动、支持、缅怀、祝愿、同情、开心、庆幸、赞美、反思
0	负向情感	质疑、无奈、愤怒、调侃、批判、悲哀、愤慨、惋惜、抱怨、谩骂、忧虑

情感标注完毕后，需要通过上采样和下采样平

关注