机器学习:广泛的定义为 “利用经验来改善计算机系统的自身性能。”,事实上,由于“经验”在计算机系统中主要是以数据的形式存在的,因此机器学习需要设法对数据进行分析,这就使得它逐渐成为智能数据分析技术的创新源之一,并且为此而受到越来越多的关注。
数据挖掘:一种解释是“识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程”,顾名思义,数据挖掘就是试图从海量数据中找出有用的知识。
数据挖掘与统计学
统计学,搜集、展示、分析及解释数据的科学,统计分不是方法的集合,而是处理数据的科学。
数据挖掘,大部分核心功能的实现都以计量和统计方法作为支撑。这些核心功能包括聚类、估计、预测、关联分组以及分类等。统计学、数据库和人工智能共同构成数据挖掘技术的三大支柱。许多成熟的统计方法构成了数据挖掘的核心内容。如回归分析、判别分析、聚类分析、探索性数据分析、列联分析等统计方法,一直在数据挖掘领域发挥着巨大的作用。
因此,若是硬要去区分数据挖掘和统计学的差异其实是没有太大意义的。数据挖掘技术中的CART、CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,数据挖掘有相当大的比重,是由高等统计学中的多变量分析所支撑。但是为什么数据挖掘的出现会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而主,数据挖掘有以下几项特性:
1.处理大量实际数据更强,且无须太专业的统计背景去使用数据挖掘的工具。
2.数据分析的趋势是从大型数据库抓取所需数据并使用专属计算机分析软件,数据挖掘的工具更符合企业需求。
3.数据挖掘和统计分析应用上的差别,毕竟数据挖掘目的是方便企业终端用户使用而非给统计学家检测用的。
数据挖掘与机器学习
机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法,因为学习算法中涉及了大量的统计学理集结,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的、行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。
机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征 识别、语音、手写识别和机器人运用。
深度学习是如今非常流行的一种机器学习。它涉及到一种特殊类型的数学模型,可认为它是特定类型的简单模块的结合。