情感分析之数据获取与预处理

数据准备工作

数据获取

本次实验的所用数据全部来自2019年新浪微博热点事件的评论。知微数据分析平台给出了2019年微博热点事件榜单,从人民日报等用户度关注较高且较权威的新闻媒体爬取评论数据,共计4万余条。

数据预处理

数据清洗

在爬取的数据中,含有噪声数据,需要进行数据清洗。本次主要清洗两类数据,分别是含有用户名的数据和小于4字符的数据,这些评论中大部分不包含任何情感信息,干扰实验结果,因此全部清除掉。

清洗准则索引 清洗类别 数据实例
1 含有用户名 数据实例
2 小于4字符 你说呢?

人工标注

本文将所有数据分成两大类:正向情感与负向情感。分类准则如下表所示:

情感标签 情感类别 情感细分
1 正向情感 建议、感动、支持、缅怀、祝愿、同情、开心、庆幸、赞美、反思
0 负向情感 质疑、无奈、愤怒、调侃、批判、悲哀、愤慨、惋惜、抱怨、谩骂、忧虑

情感标注完毕后,需要通过上采样和下采样平

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值