数据准备工作
数据获取
本次实验的所用数据全部来自2019年新浪微博热点事件的评论。知微数据分析平台给出了2019年微博热点事件榜单,从人民日报等用户度关注较高且较权威的新闻媒体爬取评论数据,共计4万余条。
数据预处理
数据清洗
在爬取的数据中,含有噪声数据,需要进行数据清洗。本次主要清洗两类数据,分别是含有用户名的数据和小于4字符的数据,这些评论中大部分不包含任何情感信息,干扰实验结果,因此全部清除掉。
清洗准则索引 | 清洗类别 | 数据实例 |
---|---|---|
1 | 含有用户名 | 数据实例 |
2 | 小于4字符 | 你说呢? |
人工标注
本文将所有数据分成两大类:正向情感与负向情感。分类准则如下表所示:
情感标签 | 情感类别 | 情感细分 |
---|---|---|
1 | 正向情感 | 建议、感动、支持、缅怀、祝愿、同情、开心、庆幸、赞美、反思 |
0 | 负向情感 | 质疑、无奈、愤怒、调侃、批判、悲哀、愤慨、惋惜、抱怨、谩骂、忧虑 |
情感标注完毕后,需要通过上采样和下采样平