一、定义
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、
逼近论
、
凸分析
、
算法复杂度
理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
二、发展
机器学习是人工智能研究发展到一定阶段的必然产物。二十世纪五十年代到七十年代初,人工智能研究处于“推理期”,那时人们以为只要能赋予机器逻辑推理能力,机器就能具有智能。但是后来人们逐渐认识到仅具有逻辑推理能力是远远实现不了人工智能的,故从二十世纪七十年代中期开始,人工智能研究进入了“知识期”。一开始采用的方式是由人来把知识总结出来再教给计算机。但是这种方式很明显存在很多问题的,比如(1)单纯的赋予,使得这种人工智能应用很窄(2)对于有些问题,发现它的规则是很难的或者其解空间根本举例不完。所以后来有些学者想到,如果机器自己能够学习该多好!
人工智能进入机器学习(从样例中学习)后,也是经过很多发展的,一开始一大主流是符号主义学习,决策树就是其中的一个代表。而到了二十世纪九十年代中期,一种看似更本质化、研究数据规律的统计学习则是占了主流的地位。不过目前的主流则是深度学习和统计学习。
三、机器学习过程中的四大核心
1、特征选择
在现实机器学习任务中,获得数据之后通常先进行特征选择,因为对于一个学习任务来说,给定属性集,其中有些属性很关键、很有用,另一些属性则可能没什么用,对学习任务有用的属性称为“相关特征”、没什么用的称为”无关特征“。
为什么要进行特征选择?
(1)处理现实任务中经常会遇到的维数灾难。
(2)去除不相关往往会降低学习任务难度。
几种特征选择的方法:
(1)、过滤式选择 (2)、包裹式选择 (3)、嵌入式选择与L1正则化 (4)、稀疏学习
2、降维
”维数灾难“是所有机器学习方法共同面临的严重障碍。因为每一任务与它有关的属性往往都是几十个,几百个甚至成千上万。而缓解维数灾难的一个重要途径是降维,常用的降维德方法有:
(1)、主成分分析
(2)、度量学习(流行学习)------对距离度量进行学习。
3、机器学习算法
根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:”监督学习“和”无监督学习“。
决策树、线性模型、贝叶斯、支持向量机都是属于监督学习的。
聚类等属于无监督学习。
4、模型评估
在模型评估中,一些性能度量,如错误率,风险率都是不同学习方法选择与原理推导的方向标。