机器学习数据探索中的画图汇总-变量相关性-异常值-数据分布散点图-直方图-KDE核密度曲线-QQ图-小提琴图-相关系数热力图-箱型图

双变量的相关性图

  • 双变量的散点图
    连续型+连续型
    两个变量是否线性相关 or 其他非线性关系。
    plt.scatter()

  • 小提琴图
    类别型+连续性
    结合箱型图+密度图
    双变量分析,横轴是不同类别,纵轴是连续变量的分布情况。
    sns.violinplot()【import seaborn as sns】

所有变量的相关性分析图

  • 热力图
    先算出所有变量的相关系数矩阵,根据这个矩阵画出热力图。
    sns.heatmap(corr_matrix)

异常值分析的图

  • 箱型图
    plt.boxplot(dataframe, labels=dataframe.columns)
    sns.boxplot()
  • 异常值分析倒是也可以用散点图直接看出来。

查看连续性变量分布的图

作用:

  1. 训练集和测试集的分布是否一致?
  2. 变量是否是正太分布的?
  • 直方图
    plt.hist()
  • kde核密度估计图
    可以看作直方图的加窗平滑。
    sns.kdeplot():只有kde曲线
    sns.distplot():kde曲线+直方图
  • QQ图
    用来看数据是否符合一个分布,符合的话,QQ图的点应该都在直线上。
    scipy.stats.probplot()

查看离散变量分布的图

频率分布图

线性回归关系图

主要用于分析变量之间的线性回归关系。一般是看 所有特征变量 和 target 之间是否有线性关系。
sns.regplot()

下面是一些图举例

散点图,双连续变量,线性关系分析。
在这里插入图片描述
小提琴图,连续+离散变量 分析。
在这里插入图片描述
箱型图的异常值分析。
在这里插入图片描述
散点图也可以做异常值分析。
在这里插入图片描述
在这里插入图片描述

kde + 直方图(左),QQ图(右)
在这里插入图片描述
分析每一个特征变量是不是正太分布。
在这里插入图片描述
用kde图分析 训练集、测试集 的分布是否一致。
在这里插入图片描述

线性回归关系图
在这里插入图片描述
热力图 分析 所有特征变量之间 以及 所有特征变量和 target 的相关性。
在这里插入图片描述
查看做Box-Cox变换前后的分布情况。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值