2020-09-18

最新推荐文章于 2023-07-03 17:43:59 发布

xiaobaizhiyangsen

最新推荐文章于 2023-07-03 17:43:59 发布

阅读量59

点赞数

本文链接：https://blog.csdn.net/xiaobaizhiyangsen/article/details/108673964

版权

数据总体了解：

读取数据集并了解数据集大小，原始特征维度；
通过info熟悉数据类型；
粗略查看数据集中各特征基本统计量；
缺失值和唯一值：

查看数据缺失值情况；
查看唯一值特征情况。
深入数据-查看数据类型

类别型数据
数值型数据：
离散数值型数据
连续数值型数据
数据间相关关系

特征和特征之间关系
特征和目标变量之间关系
用pandas_profiling生成数据报告

代码示例

导入数据分析及可视化过程需要的库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import warnings
warnings.filterwarnings(‘ignore’)

conda install 对应库，conda cloud查询安装代码
2. 读取文件

data_train = pd.read_csv(’./data/train.csv’)
data_test_a = pd.read_csv(’./data/testA.csv’)

总体了解

data_train.shape
data_test_a.shape

data_train.columns

通过info()来熟悉数据类型:

data_train.info()

总体粗略的查看数据集各个特征的一些基本统计量:

data_train.describe()

查看数据集中特征缺失值，唯一值等
查看缺失值：

print(f’There are {data_train.isnull().any().sum()} columns in train dataset with missing values.’)
1
在这里插入图片描述
上面得到训练集有22列特征有缺失值，进一步查看缺失特征中缺失率大于50%的特征：

have_null_fea_dict = (data_train.isnull().sum()/len(data_train)).to_dict()
fea_null_moreThanHalf = {}
for key,value in have_null_fea_dict.items():
if value > 0.5:
fea_null_moreThanHalf[key] = value
fea_null_moreThanHalf

nan可视化

missing = data_train.isnull().sum()/len(data_train)
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()

xiaobaizhiyangsen

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2020-09-18

数据总体了解：读取数据集并了解数据集大小，原始特征维度；通过info熟悉数据类型；粗略查看数据集中各特征基本统计量；缺失值和唯一值：查看数据缺失值情况；查看唯一值特征情况。深入数据-查看数据类型类别型数据数值型数据：离散数值型数据连续数值型数据数据间相关关系特征和特征之间关系特征和目标变量之间关系用pandas_profiling生成数据报告代码示例导入数据分析及可视化过程需要的库import pandas as pdimport numpy as npimpor
复制链接

扫一扫