2020-09-18

第二部分数据分析

在这一部分主要做一下数据分析,主要是为了理解数据,对数据集含义有一定的理解,进而为建模打下一定基础。

  1. 首先是对数据整体的理解,包括一些基本的python 函数的使用:
    data.info(),data.describe(), data.shape, data.dtypes, data.columns, data.head()等函数,对数据有一个基本的概念上的认知

  2. 关注数据质量的问题,包括理解数据的缺失,异常值等情况

  3. 关注不同数据的数据类型的问题:

  • 将数据拆分为数值型和类型型变量
  • 类型别变量,查看不同类别的分布情况
  • 数据型变量,查看连续性和非连续型变量
  1. 数据打标签之后,将各变量根据数据标签查看分布
  • 0,1 情况下哪些变量的分布具有显著的差异
  1. 注意还需要对不同类型的变量的处理:
  • 数值型
  • 类别型
  • 时间
  • 文本等,不同的数据类型有不同的处理方式,需要注意积累学习

整个过程中需要注意一些可视化的方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值