数据百问系列:“未知”数据该如何处理?

本文探讨了数据分析中遇到“未知”数据的处理方法,包括其对分析和可视化的利弊,以及如何应对需求方的反馈。讨论涉及数据来源、加工和可视化的角度,提出控制“未知”数据比例、文档化解释和建立SLA标准等解决方案。
摘要由CSDN通过智能技术生成

数据百问系列:“未知”数据该如何处理?

0x00 前言

本次讨论的主题是:数据维度分类中,习惯将无法归类或者数据模糊的归为“未知”,那么对于这些未知数据, 我们应该怎么处理呢?

问题:

  • 1、“未知”对数据分析和可视化有什么影响?好处和坏处是什么?

  • 2、需求方经常反馈看不懂“未知”数据,认为“未知”数据量级过大,你会怎么处理这种情况的?

  • 示例:比如每个城市的用户数

补充:为什么会出现未知的数据?原因多种多样,如果你没有遇到是最好的。现在可以假设的确遇到了这个问题,然后继续后面的讨论。

分析:

本话题是一个发散性的话题,并没有限制太多的内容,主要是想跟大家讨论一下当我们遇到未知数据的时候,我们应该怎么处理它们才是合适的。这个现象,在实际工作中我们可能也会遇到的, 大家也可以将它当成是一道面试题或者假设你现在就是遇到了这样的问题的场景来进行思考。

0x01

讨论一:

在用户画像分析的时候经常会遇到未知数据,主要有两个原因:

  • 1、数据采集时埋点未采集到该字段数据,上报空值;

  • 2、没有收集到用户该字段信息,无法判断

讨论二:

我是做数据底层的

  • 1、数据发生未知的时候,如果按照城市来说,我们会补上

  • 2、重点字段无法补上的数据,我们剔除到问题库,2次清洗在补,如果无法补上,我们将放在问题库里。

讨论三

数据展示要完整 没有未知就是不完整的数据,可以观察数据分类和统筹情况,隐瞒未知虽然不会暴露问题,但是很多分析要建立在真实现有数据情况下才能成立,分类表总量也要体现出来&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值