数据分析-数据来源、字段类型、数据采集陷阱

数据分析伴随着大数据的发展而兴起,在日常的生活中扮演着越来越重要的作用,今天从“数据的来源、数据类型、数据采集陷阱”开始逐步介绍数据分析方面的知识,其中有些许谬误,还请及时指点。

1.1 数据来源介绍

数据来源主要分为两大类,企业外部来源和内部来源:
外部来源: 外包购买、网路爬取、免费开源数据等;
内部来源: 销售数据、社交通信数据、考勤数据、财务数据、服务器日志数据等;

1.2 数据字段类型

数据字段可以分为四类:

定类数据: 按事物某种属性分类或分组,数字大小代表类别。比如性别(男和女)
定序数据: 数据的中间级,用数字表示个体在某个有序状态中所处的位置,不能做四则运算。比如您对天猫的满意情况如何?(非常不满意、比较不满意、中立、比较满意、非常满意);
定距数据: 表现为数值,有单位,没有绝对零点,可以做加减运算,不能做乘除运算。比如,温度。
定比数据: 是由定比尺度计量形成的,表现为数值,可以进行加、减、乘、除运算。没有负数。

定比尺度,也可以称为比例尺度,它与定距尺度属于同一层次,它与定距尺度的区别在于是否有绝对零点。在定距尺度中,“0”表示某一个数值,而定比尺度中,“0”表示“没有”或“无”。例如,温度是典型的定距尺度,因为在摄氏温度中,0℃表示在海平面高度上水结冰的温度;但对于销售人员来说,“0”表示没有成交量,所以销量属于定比尺度。在实际生活中,“0”在大多数情况下均表示事物不存在,如长度、高度、利润、薪酬、产值等,所以在实际统计中,使用的多为比例尺度,即定比尺度。 由于在定距尺度中,“0”表示特定含义,因此有些书上把定距尺度看做是定比尺度的特殊形式,两者不加区别。

1.3 数据采集陷阱

数据的采集陷阱主要表现为三方面,分别为:

误差: 误差是指计算或测量中的采集值与实际值之间的差距。仪器产生的误差,软件故障使得数据断流造成的误差,通过人力采集数据这些都会造成误差。误差对数据质量的影响可以不用考虑。

偏差: 偏差在这里指特定分析值与平均值之间的差距。偏差对样本数据质量的影响是不得不考虑的。常见的由偏差引起的逻辑错误被称为“幸存者偏差”,人们所见到的只是他们见到的,不一定能代表群体和“人类”,同时也提醒数据工作者,在采集数据时,一定要留意样本中是否存在偏差。保证数据尽可能随机,可以有效减少样本偏差。同时可以采用查看主要特征的分布情况,以查看偏差的情况。

独立性: 衡量样本间相关关系的度量,好的采集数据应该让样本与样本间尽可能地相互独立。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值