上一篇文章主要是用直方图以及饼图简单看了一下数据的情况,这一篇主要关于带密度图的直方图和箱线图。还是一样针对kaggle项目的heart disease数据而言。
1、带密度图的直方图
上一篇我有提到distplot函数可以画带密度的直方图,但是我昨天画的时候发现效果图很矮,今天发现问题所在:问题是因为我在distplot函数里添加了分类数据hue,所以去掉这个参数即可。直接看效果图。
x轴为静息血压。可以发现在不同血管发生癌变的病人中,静息血压大体分布一致,除了ca=4的时候,出现这种情况我是认为是数据样本少的原因。
代码如下:
#因为我是对多个指标做直方图,所以就用了for循坏
index1=[‘trestbps’,‘chol’,‘thalach’]
for i in range(0,3):
g4=sns.FacetGrid(heart,col=‘ca’)
g4.map(sns.distplot,index1[i])#不要添加分类变量hue,否则效果图不好
g4.add_legend()
plt.show()
2、箱线图
想要看数据的整体分布情况,除了用密度图之外,还可以用箱线图,而且箱线图比带密度的直方图好的地方在于可以添加hue变量。直接上图。