数据挖掘过程中的三次可视化

先说为什么要用图?
其一,图形往往能比文字传达更多的信息,此外,作为数据分析报告的阅读者,可能对我们的模型数据并没有兴趣,更吸引他的可能是最后的图和结论。

再说什么时候要用图?
通常来说,在一次数据挖掘过程中,可视化有三次。

  • 第一次,拿到数据的时候

我们希望通过探索性分析初步了解这份数据,
维度:行列数、变量名称
取值:缺失值、异常值
分布:偏度、是否正态
属性:数值or字符,离散or连续
这个过程中图形起着重要的辅助作用。

  • 第二次,建模的过程中,作为附加的输出结果

比如
主成分和因子分析的时候:碎石图
聚类分析的时候:层次聚类的树形图、kmeans聚类的类别分布图
决策树:规则集的树状图
神经网络:网络结构图
apriori:关联规则可视化

  • 第三次,结果输出,报告呈现的时候

不管是作为数据探索的图,还是作为模型附加结果的图,一般都是比较粗糙的
作为最终标准化输出的图,必须在前面的基础上加以选择和修改,读者理解无阻碍+适度美观就可以。

关于数据挖掘中的几次可视化先简单介绍到这里,后面咱们再通过具体案例加以说明。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值