数据探索与可视化(R的DataExplorer包)

本文介绍了如何使用R的DataExplorer包进行数据探索性分析,包括统计基本信息、检查数据结构、分析缺失值、展示单变量分布以及探究变量间相关性。通过对订单数据的分析,揭示了数据的特性,如右偏的分布、主要的支付方式和异常值等。
摘要由CSDN通过智能技术生成

这篇文章将介绍在完整数据挖掘过程中的三次可视化里提到的第一次可视化,没有人会在数据到手后马上建模,最起码,我们得知道拿到的数据是什么样子,【数据探索】其实就是在给源数据“画初印像”。

数据探索性分析主要包括以下内容:

维度:行列数、变量名称
取值:缺失值、异常值
属性:数值or字符,离散or连续
分布:偏度、是否正态、统计量

以一份订单明细为例,在R里进行数据探索分析。
在这里插入图片描述

library(DataExplorer)
create_report(dd)

#Or
#变量类型说明 str()
t(introduce(dd)) #结构 离散连续缺失值
plot_intro(dd) #可视化 百分数
profile_missing(dd)  #各变量具体缺失
plot_missing(dd)

#分类型自变量
plot_bar(dd)
plot_bar(dd, with = "单品金额") #加一个数值变量

#连续性数值变量
plot_histogram(dd)
plot_density(dd)
plot_boxplot(dd,by = "month") #加一个分类变量
plot_correlation(dd)  # 各变量之间的相关性图
plot_correlation(dd,type = "c") #相关系数,仅数值型变量
library(dloo
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值