目录
1.1机器学习综述
1、机器学习的定义
美国卡内基梅隆大学(Garnegie Mellon University)机器学习研究领域的著名教授Tom Mitchell的经典定义:
A program can be said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.
如果一个程序在使用既有的经验(E)执行某类任务(T)的过程中被认定为是“具备学习能力的”,那么它一定需要展现出:利用现有的经验(E),不断改善其完成既定任务(T)的性能(P)的特质。
2、机器学习的三个关键术语
(1)任务
监督学习:关注对事物未知表现的预测,一般包括分类问题和回归问题。
分类问题:对其所在的类别进行预测,类别既是离散的,同时也是预先知道数量的。比如,根据一个人的身高、体重和三围等数据,预测其性别;根据一朵鸢尾花的花瓣、花萼的长宽等数据,判断其属于那个鸢尾花亚种。
回归问题:预测的目标往往是连续变量。比如,根据房屋的面积、地理位置、建筑年代等进行销售价格的预测。
无监督学习:倾向于对事物本身特性的分析,常用的技术包括数据降维和聚类问题。
数据降维:对事物的特性进行压缩和筛选。
聚类:依赖于数据的相似性,把相似的数据样本划分为一个簇。
(2)经验
特征:反映数据内在规律的信息。
监督学习:所拥有的经验包括特征和标记/目标两个部分。一般用一个特征向量来描述一个数据样本;标记/目标的表现形式则取决于监督学习的种类。
无监督学习:没有标记/目标,无法从事预测任务,适合对数据结构的分析。
备注:除了标记/目标的表现形式存在离散、连续变量的区别,从原始数据到特征向量转化的过程中也会遭遇多种数据类型:类别型特征,数值型特征,甚至是缺失的数据等。实际操作过程中,都需要把这些特征转化为具体的数值参与运算。
训练集:既有特征、同时也带有目标/标记的数据集。
(3)性能
所谓性能,便是评价所完成任务质量的指标。
测试集:具备相同特征的数据,将模型的预测结果同相对应的正确答案进行比对的数据集。
备注:需要保证出现在测试集的数据样本一定不能被用于模型训练,简而言之,