数据百问系列：“未知”数据该如何处理？

最新推荐文章于 2022-08-12 20:02:20 发布

木东居士

最新推荐文章于 2022-08-12 20:02:20 发布

阅读量1.6k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhaodedong/article/details/101443395

版权

本文探讨了数据分析中遇到“未知”数据的处理方法，包括其对分析和可视化的利弊，以及如何应对需求方的反馈。讨论涉及数据来源、加工和可视化的角度，提出控制“未知”数据比例、文档化解释和建立SLA标准等解决方案。

摘要由CSDN通过智能技术生成

数据百问系列：“未知”数据该如何处理？

0x00 前言

本次讨论的主题是：数据维度分类中，习惯将无法归类或者数据模糊的归为“未知”,那么对于这些未知数据，我们应该怎么处理呢?

问题：

1、“未知”对数据分析和可视化有什么影响？好处和坏处是什么？
2、需求方经常反馈看不懂“未知”数据，认为“未知”数据量级过大，你会怎么处理这种情况的？
示例：比如每个城市的用户数

补充：为什么会出现未知的数据？原因多种多样，如果你没有遇到是最好的。现在可以假设的确遇到了这个问题，然后继续后面的讨论。

分析：

本话题是一个发散性的话题，并没有限制太多的内容，主要是想跟大家讨论一下当我们遇到未知数据的时候，我们应该怎么处理它们才是合适的。这个现象，在实际工作中我们可能也会遇到的，大家也可以将它当成是一道面试题或者假设你现在就是遇到了这样的问题的场景来进行思考。

0x01

讨论一：

在用户画像分析的时候经常会遇到未知数据，主要有两个原因：

1、数据采集时埋点未采集到该字段数据，上报空值；
2、没有收集到用户该字段信息，无法判断

讨论二：

我是做数据底层的

1、数据发生未知的时候，如果按照城市来说，我们会补上
2、重点字段无法补上的数据，我们剔除到问题库，2次清洗在补，如果无法补上，我们将放在问题库里。

讨论三

数据展示要完整没有未知就是不完整的数据，可以观察数据分类和统筹情况，隐瞒未知虽然不会暴露问题，但是很多分析要建立在真实现有数据情况下才能成立，分类表总量也要体现出来&#x

最低0.47元/天解锁文章

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。