小红书数据分析项目（二）数据清洗

最新推荐文章于 2025-05-08 08:24:00 发布

时亚东

最新推荐文章于 2025-05-08 08:24:00 发布

阅读量825

点赞数

分类专栏：小红书数据分析项目文章标签：数据分析大数据数据挖掘信息可视化经验分享

本文链接：https://blog.csdn.net/weixin_45707369/article/details/128698547

版权

2 篇文章

订阅专栏

文章探讨了如何对小红书平台上关于数据分析的用户和笔记数据进行客观事实的数据化描述。主要内容包括用户和笔记的多个维度分析，如粉丝数、获赞、收藏数等指标，以及数据异常识别和清洗过程，如处理含有“万”字的数据和拆分关联话题。同时，文章提到了标签字段的关键词频次统计方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

客观事实数据化

用户数据摘要信息

笔记数据摘要信息

# 新建辅助列，先用RIGHT函数获取该字段值右侧第一个字符，再利用IF函数判断是否是“万”字，最后利用SUBSTITUTE函数将“万”替换掉并×10000，返回计算的值。
=IF(RIGHT(D2,1)="万",SUBSTITUTE(D2,"万","")*10000,D2)

利用Excel替换操作和分列进行“万”的去除。
- 第一步：文件 – 选项 – 高级 – 勾选【转换Lotus 1-2-3 公式】
- 第二步：Ctrl+H，调出替换命令窗口，将“万”替换成“*10000”
- 第三步：数据 – 分列 – 下一步 – 完成，当前列中公式完成计算。
通过文本查找的方法从标签字段中获取关键词的出现频次。

# 将所有的关键词作为字段名，利用FIND函数依次查找标签中是否包含关键字，存在则返回1，不存在则返回0。
=IF(IFERROR(FIND(J$1,$G2),0)<>0,1,0)