![在这里插入图片描述](https://img-blog.csdnimg.cn/img_convert/4ea622cbcdb4c102fa3bc7f1aecb9945.png#pic_center)
1. 如何听起来像数据科学家
1.1. 什么是数据科学
数据是指有组织和无组织格式聚集在一起的信息
- 有组织数据:指以行列结构分类存储的数据,每一行代表一个观测对象,每一列代表一个观测特征。
- 无组织数据:指以自由格式存储的数据,通常指文本、原始音频/信号和图片等。这类数据必须进行解析才能成为有组织的数据。
1.2. 数据科学韦恩图
理解数据科学需要从3个领域开始
- 数学/统计学:指使用方程和公式进行分析
- 计算机编程:指通过代码用计算机生成结果
- 领域知识:指理解问题所处的领域(医学、金融、社会科学)
2. 数据的类型
数据是信息的集合
2.1. 数据的分类方式
- 结构化和非结构化
- 定量和定性
- 数据的4个尺度
2.2. 结构化数据和非结构化数据
判断方法:
- 结构化数据:指特征和观察值以表格的形式存储(行列结构)
- 非结构化数据:指数据以自由实体形式存在,不符合任何标准的组织层次结构,比如行列结构
文本信息的预处理
描述文本特征的数据
- 字数/短语数
- 特殊符号
- 文本相对长度
- 文本主题
大多数机器学习需要数值型数据
2.3. 定量数据和定性数据
定量数据和定性数据的含义如下:
- 定量数据:通常用数字表示,并支持包括加法在内的数字运算
- 定性数据:通常用自然类别和文字表示,不支持数字格式和数字运算
2.3.1. 案例
数据:咖啡店
- 咖啡店名称
- 营业额(单位:千元)
- 邮政编码
- 平均每月的客户数
- 咖啡产地
分析
- 咖啡店名称:定性数据
咖啡店名称无法用数字表示,且咖啡店名称不能进行数学运算
- 营业额(单位:千元):定量数据
营业额可以用数字表示,且营业额支持简单的数学运算,如将12个月营业额相加可得到1年的营业额。
- 邮政编码:定性数据
虽然邮政编码通常由数字表示,但它是定性数据,因为邮政编码不符合定量数据的第二个要求----支持数学运算。两个邮政编码相加得到一个没有意义的数字,而不是新的邮政编码
- 平均每月的客户数:定量数据
- 咖啡产地:定性数据
结论:
- 大部分情况下,当字段值为文本时,该字段都是定性数据
- 有些字段用数字表示,但并不是定量数据(如邮政编码),因为对该字段求和或求平均值,得到的结果没有任何意义
2.3.2. 字段分析内容
定量数据列
- 字段平均值是多少
- 随着时间的推移,字段值是增加还是减少
- 是否存在某个阈值,当字段值超过或低于阈值,表示公司在某方面出现了异常
定性数据列
- 高频值和低频值分别是什么
- 字段有多少重复值
- 非重复值分别代表什么