机器学习之数据理解

03 | 数据理解

-数据理解

收集原始数据

  1. 获取或者下载数据
  2. 从不同的数据源或者有关系的数据合并为一个数据集

描述数据

  1. 数据的描述性统计
  2. 数据的特征机构

挖掘数据(原始数据分/挖掘)

  1. 数据挖掘对原始数据提供一个直观的感受
  2. 对数据可视化以发现有用的模式
  3. 这一步可能有些数据问题不被发现
  4. 可能的描述猜想会知道新数据集合和试验

真实的数据质量

  1. 错误,异常和缺失值

-数据挖掘

  1. 数据挖掘-原始数据分析(Initial Data Analysis)
  • 原始数据分析几乎是每一个分析的重要组成部分,主要包括一下部分:
  1. 数据结构
  2. 数据质量
  3. 描述性统计
  • 通过分析数据可以做一些修正:
  1. 调整极值
  2. 估计缺失值
  3. 转换变量
  4. 形成新的变量
  5. 箱线图
  1. 数据挖掘-探索数据分析(Exploration Data Analysis)
  • 探索性数据分析是一种分析数据的方法,目的是为了形成值得检验的假设。
  1. 我们经常使用数据可视化技术
  2. 探索性数据分析是由ohn Tukey提出,为了鼓励统计学家去探索数据和可能描述性假设,这些假设可以知道新的数据集合和试验。
  3. 在一些相关的书籍里面,探索性数据分析似乎原始数据分析的通行证。
  • 在你学会测量你似乎已经做好了它之前,了解你能做什么是重要的。
  1. 为了学习数据分析,每个人试图尝试一些没有效果的努力是正确的-尽管我们会遇到的问题多于专业的分析。
  2. 我们通常从一个熟练的分析比一个地方学到的东西更少,因为不去尝试,我们错失了学习更多的机会。

-数据描述

检查获取数据的“粗略”或“表面”属性并报告结果。统计汇总表显示每个变量的分布,并提供描述性统计。

例如下图:描述性统计

数据描述报告:描述收集到的数据包括他的格式,数量(比如:记录的条数和数据中的字段数),以及被发现的的表面特征数和字段数量。评估获取到的数据是否满足你的需求。

例如:数据挖掘和可视化:

让我们更加接近的看看数据:

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值