推广信息:本篇文章来源于我的知乎“天地仁农业服务”发布的内容,更多精彩内容欢迎查看我的知乎主页 天地仁农业服务
啥是数据异常?
- 数据是描述客观事实的信息。
- 异的本义奇特、奇异、奇怪,引申义为不同的、其他的。异作为形容词,有奇特的、奇怪的、背叛的、邪道的之意。
- 常的本义是穿在下身的衣服,也泛指衣服,引申为恒久的、经常的。常作为形容词,有恒久的、一般的、普通的、正常的。
- 数据异常是指不符合正常规律的数据。
数据异常的分类
- 重复: 是指反复多次出现的数据。
- 缺失: 是指缺少或遗失的数据。
- 异常: 是指不合常理的数据。又分为错误异常(不合逻辑的)和非错误异常(不该出现的)。
啥是识别能力?
- 识别有区分、分辨、辨别之意。
- 识有二音,shí、zhì。本义是知道、认得,能辨别,shí引申为所知道的道理、辨别是非的能力;zhì引申为记住、标志、记号。识作动词,有辨识、标识之意。
- 别有二音,bié、biè。本义是将骨头从肉中分离,别出,bié引申为分辨、区分;差别、类别;特别、别出心裁;biè引申为不顺、不相投合。别作动词,有分离、分辨之意。
- 识别是指辨别差异并将其分离出来。
啥是数据异常识别?
-
数据异常识别是指辨别不符合正常规律的数据并将其分离出来。
-
数据异常识别能力有三个层次:
- 识别数据异常,明确属于哪种属于异常类型。
- 处理数据异常,借助数据处理工具和方法。
- 预防数据异常,调整数据收集和生成方式。
-
如果数据是病人,数据分析师便是医生。
- 识别异常的是全科医生;
- 处理异常的是外科医生;
- 预防异常的是保健医生;
举个例子,说明一下数据识别能力:
- 数据背景: 某餐饮企业在浙江、河南两个省份的五个城市杭州、金华、嘉兴、郑州和开封,共开了10家门店。我们收集到该企业2020年到2022年的销售数据、客户信息以及菜品信息。
- 项目需求: 识别出案例数据中异常情况。
-
目的:识别出所给数据中异常。
-
数据异常:是指不符合正常规律的数据。
-
数据异常分类:重复数据、缺失数据和异常数据,其中异常数据分为错误异常和非错误异常。
-
数据字典:
- 数据异常识别:
- 显然所给数据是销售流水数据,每个订单包含两个菜品。
- 重复数据:订单信息、门店信息和顾客信息对每个订单来说都属于重复数据。在统计销量相关的需求时,应通过订单编号去重计数。
- 缺失数据:age和gender各出现一组数据缺失。现在大家的个人信息保护意识越来越强,吃个饭还要填写年龄、性别信息,肯定会造成数据缺失。
- 异常数据:
- 顾客person_1的年龄属于错误异常,2020年在郑州点餐时50岁,2021年在杭州点餐时54岁,完全不符合逻辑。处理方案要查询其他时期的点餐数据作为参考;
- 菜品food_8的单价异常属于错误异常,这种情况属于服务人员手抖多点了一次9。处理方案可以直接替换为19。
- 菜品food_3的单价和成本异常属于非错误异常,store_5可能把food_3炒热后售卖,符合逻辑,但是不该出现。处理方案可联系负责人新增菜品。
- 无统计意义数据:unit 字段为我们提供了信息,说明单价和成本是按元计量,但是不具有统计意义。
- 真实情况下的业务数据有两种情况:
- 使用业务系统生成的数据,大多维度数据的业务口径统一,自动关联,不需要人工填写,所以相对干净整齐。
- 人工手动填写的数据,人们喜欢使用简写、缩写或略写等,同样的事物,描述千奇百怪,为数据处理平添麻烦。