数据百问系列:“未知”数据该如何处理?
0x00 前言
本次讨论的主题是:数据维度分类中,习惯将无法归类或者数据模糊的归为“未知”,那么对于这些未知数据, 我们应该怎么处理呢?
问题:
1、“未知”对数据分析和可视化有什么影响?好处和坏处是什么?
2、需求方经常反馈看不懂“未知”数据,认为“未知”数据量级过大,你会怎么处理这种情况的?
示例:比如每个城市的用户数
补充:为什么会出现未知的数据?原因多种多样,如果你没有遇到是最好的。现在可以假设的确遇到了这个问题,然后继续后面的讨论。
分析:
本话题是一个发散性的话题,并没有限制太多的内容,主要是想跟大家讨论一下当我们遇到未知数据的时候,我们应该怎么处理它们才是合适的。这个现象,在实际工作中我们可能也会遇到的, 大家也可以将它当成是一道面试题或者假设你现在就是遇到了这样的问题的场景来进行思考。
0x01
讨论一:
在用户画像分析的时候经常会遇到未知数据,主要有两个原因:
1、数据采集时埋点未采集到该字段数据,上报空值;
2、没有收集到用户该字段信息,无法判断
讨论二:
我是做数据底层的
1、数据发生未知的时候,如果按照城市来说,我们会补上
2、重点字段无法补上的数据,我们剔除到问题库,2次清洗在补,如果无法补上,我们将放在问题库里。
讨论三
数据展示要完整 没有未知就是不完整的数据,可以观察数据分类和统筹情况,隐瞒未知虽然不会暴露问题,但是很多分析要建立在真实现有数据情况下才能成立,分类表总量也要体现出来&#x