目录
1.机器学习定义
-
非显著式编程:让计算机自己总结规律的编程方法
-
程序员构造算法,让计算机自己取寻找最大化收益函数。
机器人可以采取一系列行为,通过数据、经验自动学习。
-
收益函数(Reward function):在特定环境下,机器人的行为所带来的收益
-
-
显著式编程:
-
劣势:帮机器人把它所处的环境调查的一清二楚
-
-
机器学习的本质:通过有限的已知数据,在复杂的高维特征样本空间中预测位置的样本
2.机器学习任务的分类
一、按照任务性质的不同:
-
监督学习(Supervised Learning):所有的经验E都是人工采集并输入计算机的。人工输入数据,同时加上标签。
-
监督学习根据数据标签存在与否分类:
-
传统的监督学习:每一个训练数据都有对应的标签。
-
支持向量机(Support Vector Machine)
-
人工神经网络(Neural Network)
-
深度神经网络(Deep Neural Network)
-
-
非监督学习:所有训练数据都没有对应的标签。
-
聚类(Clustering)
-
EM算法(Expectation-Maximization algorithm)
-
主成分分析(principle Component Analysis)
-
-
半监督学习:训练数据一半有标签一半没有标签。
研究通过少量的标注数据和大量的未标注数据,获得更好的机器学习算法。
-
-
二、按照标签是连续的还是离散的:
-
强化学习(Reinforcement Learning):计算机通过与环境互动获得经验E,逐渐强化自己的行为模式。计算机产生行为,程序定义这些行为的收益函数,收益函数对行为进行奖励或惩罚。同时,需要设计算法使得计算机可以通过改变自己的行为模式去最大化收益函数。
-
ALPHAGO:监督学习和强化学习结合。通过监督学习(高手对局数据)获得初始围棋程序。再对其进行强化学习。
3.机器学习算法的过程
机器学习的重点:假设已经提取好特征的前提下,研究合理的算法,使得学习系统获得较好的性能。
以红白细胞的分类为例:
-
特征提取(Feature Extraction):通过训练样本获得的,对机器学习任务有帮助的多维度数据。
-
细胞的面积、圆形度、表面粗糙程度、周长等
-
-
特征选择(Feature Selection):选择能够较好实现分类的特征。
-
选择细胞的面积、周长
-
-
不同的算法对特征空间进行不同的划分:
-
特征空间(Feature Space):由特征构成的空间。(例如红白细胞分类中的特征空间是以面积、周长分别为横纵坐标构成的二维平面)
-
4.没有免费午餐定理
-
定理内容:任何一个预测样本,如果在一些训练样本上表现好,那么必然在另一些训练样本上表现不好,如果不对数据在特征空间的先验分布有一定假设,那么表现好与表现不好的情况一样多。
-
如果不对特征空间的先验分布有假设,所有算法的表现都是一样的。
设计机器学习算法时有一个假设:在特征空间上距离接近的样本,他们属于同一个类别的概率会更高。使得各种情况下的先验概率不一致。