数据分析-数据来源、字段类型、数据采集陷阱

本文介绍了数据分析的基础知识,包括数据的来源(外部与内部)、数据字段的四类类型(定类、定序、定距、定比)以及数据采集过程中可能遇到的误差、偏差和独立性问题。强调了偏差对样本数据质量的影响,提醒数据工作者注意样本的随机性和独立性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据分析伴随着大数据的发展而兴起,在日常的生活中扮演着越来越重要的作用,今天从“数据的来源、数据类型、数据采集陷阱”开始逐步介绍数据分析方面的知识,其中有些许谬误,还请及时指点。

1.1 数据来源介绍

数据来源主要分为两大类,企业外部来源和内部来源:
外部来源: 外包购买、网路爬取、免费开源数据等;
内部来源: 销售数据、社交通信数据、考勤数据、财务数据、服务器日志数据等;

1.2 数据字段类型

数据字段可以分为四类:

定类数据: 按事物某种属性分类或分组,数字大小代表类别。比如性别(男和女)
定序数据: 数据的中间级,用数字表示个体在某个有序状态中所处的位置,不能做四则运算。比如您对天猫的满意情况如何?(非常不满意、比较不满意、中立、比较满意、非常满意);
定距数据: 表现为数值,有单位,没有绝对零点,可以做加减运算,不能做乘除运算。比如,温度。
定比数据: 是由定比尺度计量形成的,表现为数值,可以进行加、减、乘、除运算。没有负数。

定比尺度,也可以称为比例尺度,它与定距尺度属于同一层次,它与定距尺度的区别在于是否有绝对零点。在定距尺度中,“0”表示某一个数值,而定比尺度中,“0”表示“没有”或“无”。例如,温度是

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值