小红书数据分析项目(二)数据清洗

客观事实数据化

客观事实:

描述“数据分析”相关的小红书用户。

  • 维度:用户名;性别;IP属地;标签
  • 指标:关注人数;粉丝人数;获赞与收藏数
  • 特征指标:爱学习指数;受欢迎程度

描述“数据分析”相关的小红书笔记内容。

  • 维度:用户名;标题;小红书类型;文章类型;发布时间;发布省份;关联话题
  • 指标:点赞数;收藏数;评论数;关联话题数
  • 特征指标:受欢迎程度

数据摘要

小红书用户数据摘要信息

用户数据摘要信息

小红书笔记数据摘要信息

笔记数据摘要信息

数据异常识别

小红书用户数据异常分析:

  • 异常类型:非错误异常(数据类型异常)。粉丝人数、获赞与收藏数两个字段的值中存在“万”字,造成字段类型为“文本”类型,作为指标字段需要将其转化为“数值”类型。
  • 价值信息抽取:标签字段内容复杂,不易统计分析,而我们对该字段的关注点有限,通过文本查找的方法从标签字段中获取关键词的出现频次。

小红书笔记数据异常分析:

  • 异常类型:非错误异常(数据类型异常)。点赞数、收藏数两个字段的值中存在“万”字,造成字段类型为“文本”类型,作为指标字段需要将其转化为“数值”类型。
  • 异常类型:非错误异常(数据维度转换)。关联话题属于一维数据,每个话题之间以分号间隔,可以通过分列拆分每一个话题,然后分组计数每个话题的出现频次。

数据清洗

  • 用户数据中粉丝人数、获赞与收藏数以及笔记数据中点赞数、收藏数四个字段中去除“万”字并将文本类型转换为数值类型。
# 新建辅助列,先用RIGHT函数获取该字段值右侧第一个字符,再利用IF函数判断是否是“万”字,最后利用SUBSTITUTE函数将“万”替换掉并×10000,返回计算的值。
=IF(RIGHT(D2,1)="万",SUBSTITUTE(D2,"万","")*10000,D2)
  • 利用Excel替换操作和分列进行“万”的去除。
    • 第一步:文件 – 选项 – 高级 – 勾选【转换Lotus 1-2-3 公式】
    • 第二步:Ctrl+H,调出替换命令窗口,将“万”替换成“*10000”
    • 第三步:数据 – 分列 – 下一步 – 完成,当前列中公式完成计算。
      Excel选项高级功能
      替换操作
  • 通过文本查找的方法从标签字段中获取关键词的出现频次。
# 将所有的关键词作为字段名,利用FIND函数依次查找标签中是否包含关键字,存在则返回1,不存在则返回0。
=IF(IFERROR(FIND(J$1,$G2),0)<>0,1,0)
  • 关联话题字段分列并分组计数。
    分列操作
    分组计数
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值