最近发现一个用于缺失值可视化的库,十分的方便、直观。
missingno 下载
可以用pip install missingno 即可下载该库
导入库
import missingno as msno
下面开始举一些栗子
1.条形密度图
msno.matrix(data.sample(1000),labels=True)
#data表示类型为dataframe的表格,
#sample(1000)表示抽取表格中1000个样本。
#labels为True表示显示标签,默认不显示
图是可视化的结果,白线越多,代表缺失值越多。
2.条形图
msno.bar(data)
左边数轴上表示没缺失记录占比;右边表示没缺失记录数量。
3.热力图
msno.heatmap(data,figsize=(16, 7))
这个图的意思是,比如说GarageType和FireplaceQu的热度值是0.2,代表的是,当GarageType缺失时,FireplaceQu有20%的概率缺失,表示的是两个特征之间的关系。一个变量的存在或不存在对另一个变量的存在的影响。
4.树状图
msno.dendrogram(data)#树状图显示
missingno树形图使用层次聚类算法通过它们的无效性相关性(根据二进制距离测量)将变量彼此相加。在树的每个步骤,基于哪个组合最小化剩余簇的距离来分割变量。变量集越单调,它们的总距离越接近零,并且它们的平均距离(y轴)越接近零。