山东大学暑期项目实训-基于信用评分卡算法模型的个人信用评级系统的设计与实现-第三周-7(7月12日)

日总结

通过上周对基础知识的学习已经数据预处理后,本周先就已经处理好的数据进行探索性数据分析,通过直方图对各个数据列进行适当的划分bins数后。观察分析直方图,发现其中大多数都按照预期呈现正态分布,但部分列例如DebtRatio列就出现了数据只占据直方图左边的情况,最先以为是bins数不够所导致的问题,但划分更多bins数后仍然出现这种问题,后对数据库的数据进行排序查看发现该列超过90%的数据都是1左右的小位数,后面出现了几千上万甚至上十万的数据,又因为这些数据量小,所以在直方图上几乎不可见,导致虽然出现了横坐标但看起来像一片空白数据全部靠左一样。所以对这些过大的数据在用直方图查看分析的时候,暂时将它们删除后直方图重新恢复正常预期的正态分布。然后通过heatmap进行对各变量相关性系数的显示。

直方图

df.info()
df.hist(bins=80,fiqsize=(12,12))
plt.show()

相关性系数(heatmap显示)

​
tmp_df = df.drop(df.columns[[0, 1]], axis=1)
corr = tmp_df.corr()
xticks = list(corr.index)
yticks = list(corr.index)
f, ax1 = plt.subplots(figsize=(12, 12))
sns.heatmap(corr, annot=True, fmt='.2f', cmap='rainbow', ax=ax1)
ax1.set_xticklabels(xticks, rotation=90, fontsize=10)
ax1.set_yticklabels(yticks, rotation=0, fontsize=10)
plt.show()

​

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值