你了解你的数据吗(筑基篇)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/zhaodedong/article/details/79119957

0x00 前言

刚入行做数据开发的时候经常听企业导师讲,你要有数据的意识,不能只知道闷着头来一个需求接一个,要从业务的角度来理解数据,这样你的职业线才能更长。

本篇不会分享和业务强相关的数据 Sense,但是会引入一些各种业务都会涉及的最基本内容:

  1. 数据核心维度分布:核心业务维度分布,主要是指像年龄、地域、性别之类的维度分布。
  2. 数据口径:数据口径可以理解为同名字段在不同表中的取值范围。

0x01 数据核心维度分布

核心维度分布主要是指数据中那些比较重要的列的内容分布,比如说用户最基本的年龄、性别和城市信息,这是最常用的数据分布,再引申一点的话会涉及到一些业务内容,比如说各省份的人的订单情况、不同时间段男女活跃信息对比,等等。如果有用户画像表的话还应包括各种画像中的维度分布。

因此,我们来做一个大概的划分的话,那就是三部分内容:1.基础资料;2.业务行为;3.用户画像。这三部分能帮助我们来理解用户是什么样子的?更好的懂业务,能促进更深入地理解数据。

上图是我画的一个大致的图,具体的内容应该是自己根据业务来详细的划分和填充。这些数据内容,你了解吗?不了解的话,就赶快整理一下吧。

0x02 数据口径

关于数据口径,很难给它一个准确权威的定义,我们不妨举几个例子来说明:

  1. 假设性别字段在表A中的取值是0、1、2(未知、男、女),在表B中取值是0、1、2(男、女、未知),这可能是从不同业务方接入的数据,现在需要将两份数据合并,来算整体的男女比例,如果你不知道两个表的数据口径,会出现什么样的结果?
  2. 假设你有很多数据都有ip这一个字段,ip为空的时候默认值是0,如果新接入一份数据,它的ip为空的默认值是null或者是-1,你之前的程序能很好地处理完成吗?
  3. 然后数据粒度的问题,同样的年龄字段,在表A中是具体的年龄数值,在表B中是0-20、20-30这样的数值,你直接使用会是什么情况?

上面就是我想表达的关于数据口径的一些例子,下面整理了一份大致的思维导图可供参考。

关于数据口径的问题,如何避免和解决这些问题可能就是一行代码或者是提前约定好规则就能搞定的,但是我们要先有这种意识,有了这样的意识,我们在接入和处理数据的时候就能提前预知问题或者出现问题了能快速定位和解决。

0x02 总结

本篇的内容是希望数据小伙伴能从相对贴近数据或者说是贴近业务的层面上来理解数据。

数据的核心维度分布能让你对自己的数据有更全局观地把控,数据口径的问题能让你从更微观地角度来理解数据,以便更好地去处理数据。

展开阅读全文

没有更多推荐了,返回首页