探索性数据分析(EDA)之pandas_profiling
1.安装pandas_profiling
pip install pandas_profiling
# conda install pandas_profiling
2.pandas_profiling的使用
import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport
df = pd.DataFrame(
np.random.rand(100, 5),
columns=["a", "b", "c", "d", "e"]
)
# 产生分析报告
profile = ProfileReport(df, title="My Report",explorative=True)
3.显示分析报告
报告是一个HTML文件,可在jupyter notebook上直接显示报告
profile.to_widgets()
或者
profile.to_notebook_iframe()
报告大体由5部分组成,分别是
1. 数据集概况(基本信息)
- 变量数(列)、观察数(行)、数据缺失率、内存;
- 数据类型的分布情况
2. 每个变量的详细情况
- 要点:类型,唯一值,缺失值
- 分位数统计量,如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围
- 描述性统计数据,如均值,模式,标准差,总和,中位数绝对偏差,变异系数,峰度,偏度
3. 相关性分析
4. 缺失值情况
5. 样本信息
可以点击Toggle details,会展开更为详细的信息
4.保存报生成的报告
profile.to_file("your_report.html")
# 保存为一个html文件
或者
# As a string
json_data = profile.to_json()
# As a file
profile.to_file("your_report.json")
# 保存为一个json文件
5.官方文档
更详细的用法请参考官方文档: