先说为什么要用图?
其一,图形往往能比文字传达更多的信息,此外,作为数据分析报告的阅读者,可能对我们的模型数据并没有兴趣,更吸引他的可能是最后的图和结论。
再说什么时候要用图?
通常来说,在一次数据挖掘过程中,可视化有三次。
- 第一次,拿到数据的时候
我们希望通过探索性分析初步了解这份数据,
维度:行列数、变量名称
取值:缺失值、异常值
分布:偏度、是否正态
属性:数值or字符,离散or连续
这个过程中图形起着重要的辅助作用。
- 第二次,建模的过程中,作为附加的输出结果
比如
主成分和因子分析的时候:碎石图
聚类分析的时候:层次聚类的树形图、kmeans聚类的类别分布图
决策树:规则集的树状图
神经网络:网络结构图
apriori:关联规则可视化
- 第三次,结果输出,报告呈现的时候
不管是作为数据探索的图,还是作为模型附加结果的图,一般都是比较粗糙的
作为最终标准化输出的图,必须在前面的基础上加以选择和修改,读者理解无阻碍+适度美观就可以。
关于数据挖掘中的几次可视化先简单介绍到这里,后面咱们再通过具体案例加以说明。