上篇文章《数据挖掘的一般流程》说到,数据挖掘实际上是一个解决问题的过程,那它可以解决什么样的问题呢?
一说,有以下四类:
-
预测
eg:买或者不买,买的话买多少 -
发现内在结构
eg:样本间的相似性,分群 -
关联性
eg:啤酒与尿布 -
模式甄别
eg:异常值识别,欺诈分析
这些问题几乎存在于各个领域,所以我们说数据挖掘的行业应用非常广泛,就其中最典型的若干商业应用,画个图供大家参考,坐标轴的两个维度分别代表应用成熟度和市场吸引力。
虽然不同的行业所面临的具体问题不同,但真要研究起来总绕不过最前面提到的四个问题,切入点、思路,其实很多都是类似的。行业壁垒在做数据分析的人看来可能并不是很大,一个能做好包子的人蒸的馒头自然不会差,毕竟揉面的基本功摆着在。