这篇文章将介绍在完整数据挖掘过程中的三次可视化里提到的第一次可视化,没有人会在数据到手后马上建模,最起码,我们得知道拿到的数据是什么样子,【数据探索】其实就是在给源数据“画初印像”。
数据探索性分析主要包括以下内容:
维度:行列数、变量名称
取值:缺失值、异常值
属性:数值or字符,离散or连续
分布:偏度、是否正态、统计量
以一份订单明细为例,在R里进行数据探索分析。
library(DataExplorer)
create_report(dd)
#Or
#变量类型说明 str()
t(introduce(dd)) #结构 离散连续缺失值
plot_intro(dd) #可视化 百分数
profile_missing(dd) #各变量具体缺失
plot_missing(dd)
#分类型自变量
plot_bar(dd)
plot_bar(dd, with = "单品金额") #加一个数值变量
#连续性数值变量
plot_histogram(dd)
plot_density(dd)
plot_boxplot(dd,by = "month") #加一个分类变量
plot_correlation(dd) # 各变量之间的相关性图
plot_correlation(dd,type = "c") #相关系数,仅数值型变量
library(dloo