日总结
通过上周对基础知识的学习已经数据预处理后,本周先就已经处理好的数据进行探索性数据分析,通过直方图对各个数据列进行适当的划分bins数后。观察分析直方图,发现其中大多数都按照预期呈现正态分布,但部分列例如DebtRatio列就出现了数据只占据直方图左边的情况,最先以为是bins数不够所导致的问题,但划分更多bins数后仍然出现这种问题,后对数据库的数据进行排序查看发现该列超过90%的数据都是1左右的小位数,后面出现了几千上万甚至上十万的数据,又因为这些数据量小,所以在直方图上几乎不可见,导致虽然出现了横坐标但看起来像一片空白数据全部靠左一样。所以对这些过大的数据在用直方图查看分析的时候,暂时将它们删除后直方图重新恢复正常预期的正态分布。然后通过heatmap进行对各变量相关性系数的显示。
直方图
df.info()
df.hist(bins=80,fiqsize=(12,12))
plt.show()
相关性系数(heatmap显示)
tmp_df = df.drop(df.columns[[0, 1]], axis=1)
corr = tmp_df.corr()
xticks = list(corr.index)
yticks = list(corr.index)
f, ax1 = plt.subplots(figsize=(12, 12))
sns.heatmap(corr, annot=True, fmt='.2f', cmap='rainbow', ax=ax1)
ax1.set_xticklabels(xticks, rotation=90, fontsize=10)
ax1.set_yticklabels(yticks, rotation=0, fontsize=10)
plt.show()