《深入浅出数据科学》笔记(一)


在这里插入图片描述

1. 如何听起来像数据科学家

1.1. 什么是数据科学

数据是指有组织无组织格式聚集在一起的信息

  1. 有组织数据:指以行列结构分类存储的数据,每一行代表一个观测对象,每一列代表一个观测特征
  2. 无组织数据:指以自由格式存储的数据,通常指文本、原始音频/信号和图片等。这类数据必须进行解析才能成为有组织的数据。

1.2. 数据科学韦恩图

理解数据科学需要从3个领域开始

  • 数学/统计学:指使用方程和公式进行分析
  • 计算机编程:指通过代码用计算机生成结果
  • 领域知识:指理解问题所处的领域(医学、金融、社会科学)

2. 数据的类型

数据是信息的集合

2.1. 数据的分类方式

  • 结构化和非结构化
  • 定量和定性
  • 数据的4个尺度

2.2. 结构化数据和非结构化数据

判断方法:

  • 结构化数据:指特征和观察值以表格的形式存储(行列结构)
  • 非结构化数据:指数据以自由实体形式存在,不符合任何标准的组织层次结构,比如行列结构

文本信息的预处理

描述文本特征的数据

  • 字数/短语数
  • 特殊符号
  • 文本相对长度
  • 文本主题

大多数机器学习需要数值型数据

2.3. 定量数据和定性数据

定量数据和定性数据的含义如下:

  • 定量数据:通常用数字表示,并支持包括加法在内的数字运算
  • 定性数据:通常用自然类别和文字表示,不支持数字格式和数字运算

2.3.1. 案例

数据:咖啡店

  • 咖啡店名称
  • 营业额(单位:千元)
  • 邮政编码
  • 平均每月的客户数
  • 咖啡产地

分析

  • 咖啡店名称:定性数据

咖啡店名称无法用数字表示,且咖啡店名称不能进行数学运算

  • 营业额(单位:千元):定量数据

营业额可以用数字表示,且营业额支持简单的数学运算,如将12个月营业额相加可得到1年的营业额。

  • 邮政编码:定性数据

虽然邮政编码通常由数字表示,但它是定性数据,因为邮政编码不符合定量数据的第二个要求----支持数学运算。两个邮政编码相加得到一个没有意义的数字,而不是新的邮政编码

  • 平均每月的客户数:定量数据
  • 咖啡产地:定性数据

结论:

  • 大部分情况下,当字段值为文本时,该字段都是定性数据
  • 有些字段用数字表示,但并不是定量数据(如邮政编码),因为对该字段求和或求平均值,得到的结果没有任何意义

2.3.2. 字段分析内容

定量数据列

  • 字段平均值是多少
  • 随着时间的推移,字段值是增加还是减少
  • 是否存在某个阈值,当字段值超过或低于阈值,表示公司在某方面出现了异常

定性数据列

  • 高频值和低频值分别是什么
  • 字段有多少重复值
  • 非重复值分别代表什么

2.4. 深入研究

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值