现阶段对数据库中知识发现KDD、数据挖掘、集成学习、深度学习、机器学习、人工智能、统计学、大数据、云计算的个人理解:

现阶段对数据库中知识发现KDD、数据挖掘、集成学习、深度学习、机器学习、人工智能、统计学、大数据、云计算的个人理解:

1.KDD与数据挖掘

首先说一下数据库中知识发现KDD,其过程包括:输入数据、数据预处理、数据挖掘、知识展现,其中的数据挖掘指的是运用统计学算法或函数完成知识的提取;数据挖掘主要有几大任务:预测建模(分类和回归)、聚类分析、关联分析、异常检测;其中分类用于预测离散的目标变量,回归用于预测连续的目标变量;而现在在很多场合对数据挖掘的含义理解等同于KDD,在数据挖掘的几大主要任务中,主要的经典算法有很多,例如:决策树分类、贝叶斯分类,K-mean聚类,Apriori关联分析和神经网络等;

2.集成学习与深度学习

针对分类预测任务中,一种算法可以构成一个学习器,称为基学习器,而通过聚集多个学习器的预测来提高分类准确率,这种技术称为组合或学习器组合,例如:处理训练数据集的组合方法bagging(又称自助聚集boot strap aggregating)、boosting,处理输入特征的方法随机森林等。而多种学习器组合的方法(bagging\boosting\stacking等)就是狭义的集成学习(ensemble learning)。

神经网络学习中:神经元是一种最小单元,一种仿生技术,即每个神经元都有一个“阀值”,当传来信号超过时会向其他神经元传送信号。感知机由两层神经元组成,输入层和输出层。为了解决更复杂的问题时,往往在输入层和输出层之间添加一层或多层神经元,其被称为隐含层。包含多个隐含层的感知机称为多层感知机。从仿生学角度来说,以上所提到的学习器组合方法,大多数时候都只是含有一层或没有隐层节点。因此被称为浅层学习,与之相对应的就是包含多个隐含层的多层感知机,其具有更加优异的特征学习能力,学习得到的特征对数据有更本质的刻划,处理的问题也更加复杂,被称之为深度学习。

3.机器学习和人工智能

人工智能这门科学的目的在于开发一个模拟人类能在某种环境下做出反应和行为的系统或软件。由于这个领域极其广泛,人工智能将其目标定义为多个子目标。然后每个子目标就都发展成了一个独立的研究分支。

这里是一张人工智能所要完成的主要目标列表(亦称为AI问题)

1、Reasoning(推理)
2、Knowledge representation(知识表示)
3、Automated planning and scheduling(自动规划)
4、Machine learning(机器学习)
5、Natural language processing(自然语言处理)
6、Computer vision(计算机视觉)
7、Robotics(机器人学)
8、General intelligence or strong AI(通用智能或强人工智能)

正如列表中提到的,机器学习这一研究领域是由AI的一个子目标发展而来,用来帮助机器和软件进行自我学习来解决遇到的问题。它的目标在于使机器不通过编程和明确的硬接线进行自我学习来对目标求解。

机器学习是人工智能的一个分支,而现在很多时候几乎成了人工智能的代名词。简单来说,机器学习就是通过算法,使得机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来做预测。

需要说明的是,机器学习目前已经是一个很大的学科领域。T.G. Dietterich曾发表过一篇题为《Machine-Learning Research;Four Current Directions》的很有影响的文章,在文章中他讨论了集成学习、可扩展机器学习(例如对大数据集、高维数据的学习等)、强化学习、概率网络等四个方面的研究进展,而其中的集成学习为誉为机器学习四大方向之首。

4.数据挖掘、大数据、机器学习、统计学

大数据(big data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。

数据挖掘是从海量数据中挖掘知识,这就必然涉及对“海量数据”的管理和分析。总的来说,数据库领域是大数据的存储工具,为数据挖掘提供数据管理技术,而机器学习和统计学的研究为数据挖掘提供数据分析技术。由于统计学的研究成果通常需要经由机器学习研究来形成有效的学习算法,之后再进入数据挖掘领域,因此从这个意义上来说,统计学主要是通过机器学习对数据挖掘发挥影响,而机器学习领域和数据库领域则是数据挖掘的两大支撑。

5.大数据与云计算

云计算(cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。因此,云计算甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。

云计算是一个平台,将多数计算机连接在一起实现超级计算机的具备的能力,在这个平台之上可以对超大规模数据进行算法的运算,完成知识的发现提取。最终大数据和云计算也必将走向结合。

 

 

下面两幅图从不同角度描述各领域之间的关系:

 

图1:各领域包含关系

 

图2:数据挖掘、统计学、机器学习以及人工智能的关系

 

 

参考文献:

[1]孙志军,薛磊.深度学习研究综述[J]计算机应用研究.2012.8 29-8

[2]余凯.深度学习的昨天、今天、明天[J]计算机研究与发展.2013

[3]人工智能机器学习统计学数据挖掘关系.http://blog.jobbole.com/84713/

[4]周志华.数据挖掘与机器学习.

 

 

 

阅读更多
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭