2020-09-18

数据总体了解:

读取数据集并了解数据集大小,原始特征维度;
通过info熟悉数据类型;
粗略查看数据集中各特征基本统计量;
缺失值和唯一值:

查看数据缺失值情况;
查看唯一值特征情况。
深入数据-查看数据类型

类别型数据
数值型数据:
离散数值型数据
连续数值型数据
数据间相关关系

特征和特征之间关系
特征和目标变量之间关系
用pandas_profiling生成数据报告

代码示例

  1. 导入数据分析及可视化过程需要的库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import warnings
warnings.filterwarnings(‘ignore’)

conda install 对应库,conda cloud查询安装代码
2. 读取文件

data_train = pd.read_csv(’./data/train.csv’)
data_test_a = pd.read_csv(’./data/testA.csv’)

  1. 总体了解

data_train.shape
data_test_a.shape

data_train.columns

通过info()来熟悉数据类型:

data_train.info()

总体粗略的查看数据集各个特征的一些基本统计量:

data_train.describe()

  1. 查看数据集中特征缺失值,唯一值等
    查看缺失值:

print(f’There are {data_train.isnull().any().sum()} columns in train dataset with missing values.’)
1
在这里插入图片描述
上面得到训练集有22列特征有缺失值,进一步查看缺失特征中缺失率大于50%的特征:

have_null_fea_dict = (data_train.isnull().sum()/len(data_train)).to_dict()
fea_null_moreThanHalf = {}
for key,value in have_null_fea_dict.items():
if value > 0.5:
fea_null_moreThanHalf[key] = value
fea_null_moreThanHalf

nan可视化

missing = data_train.isnull().sum()/len(data_train)
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值