每次谈到数据挖掘都让人很兴奋,但是真正的应用有几个是数据挖掘算法支撑起来的呢:大家哈哈一笑,”除了尿布和啤酒“还有什么拿的出的例子吗。传统的统计学方法可以解决大多数知识发现问题。数据挖掘实际上是一组在人类高级智能和计算机低级智能间的抽象算法:分类(聚类,智能是基础)、关联(和专家系统的规则有区别吗)。个人认为数据挖掘的几个算法其本质类似于数据库领域的”SQL“语句。用几个基本的算子尽量组织成复杂的逻辑,解决现实的问题。
说了半天,数据挖掘的发展不外乎两个方向:1、扩展到更多领域,用基本的方法解决新问题;2、优化算法(设计新的算法)更快的完成几个功能(包括解决大数据问题需要的方法)。
因此,个人认为从出现的新应用入手,看数据挖掘那几个工具,能办好哪些事情。然后对工具修改一下,以适应新的环境。
1、图挖掘(互联网,社交网络等新应用);
2、流数据挖掘(视频、点击流,传感器网络的监控流);
3、时空数据挖掘(GPS,wifi,网络定位的发展);
4、非结构数据,高维数据挖掘(文本、图片都是高维数据);
5、转业领域数据挖掘(比如生物信息学领域)。
针对新的应用模式,扩充几种工具的功能,加快其运行速度(包括并行化——集群计算是个热点)就成了未来几年的研究热点。
另外,我们想知道知识,但是总有些信息是需要保密的,因此隐私问题也是一个研究热点。