双变量的相关性图
-
双变量的散点图
连续型+连续型
两个变量是否线性相关 or 其他非线性关系。
plt.scatter() -
小提琴图
类别型+连续性
结合箱型图+密度图
双变量分析,横轴是不同类别,纵轴是连续变量的分布情况。
sns.violinplot()【import seaborn as sns】
所有变量的相关性分析图
- 热力图
先算出所有变量的相关系数矩阵,根据这个矩阵画出热力图。
sns.heatmap(corr_matrix)
异常值分析的图
- 箱型图
plt.boxplot(dataframe, labels=dataframe.columns)
sns.boxplot() - 异常值分析倒是也可以用散点图直接看出来。
查看连续性变量分布的图
作用:
- 训练集和测试集的分布是否一致?
- 变量是否是正太分布的?
- 直方图
plt.hist() - kde核密度估计图
可以看作直方图的加窗平滑。
sns.kdeplot():只有kde曲线
sns.distplot():kde曲线+直方图 - QQ图
用来看数据是否符合一个分布,符合的话,QQ图的点应该都在直线上。
scipy.stats.probplot()
查看离散变量分布的图
频率分布图
线性回归关系图
主要用于分析变量之间的线性回归关系。一般是看 所有特征变量 和 target 之间是否有线性关系。
sns.regplot()
下面是一些图举例
散点图,双连续变量,线性关系分析。
小提琴图,连续+离散变量 分析。
箱型图的异常值分析。
散点图也可以做异常值分析。
kde + 直方图(左),QQ图(右)
分析每一个特征变量是不是正太分布。
用kde图分析 训练集、测试集 的分布是否一致。
线性回归关系图
热力图 分析 所有特征变量之间 以及 所有特征变量和 target 的相关性。
查看做Box-Cox变换前后的分布情况。