这里仅做个人的笔记所用,内容及代码多来自《机器学习实战》、《机器学习》,侵删~
第一章 机器学习基础
一、关键术语
(1)一个具有相关特征的实例
在上表中,体重、翼展、脚蹼、后背颜色称之为特征,种属称之为目标变量。前两种是数值型,可以用十进制;第三种术语二值型,只取0或1;第四种是枚举型。
二、机器学习的主要任务
(1)机器学习的主要任务是分类。 在监督学习中,目标变量是学习算法的预测结果,在分类算法中目标变量的类型通常是标称型(一般在有限的数据中取,而且只存在‘是’和‘否’两种不同的结果,一般用于分类)的,而在回归算法中通常是连续型。训练样本集必须知道目标变量的值。
(2)机器学习解决分类问题的主要任务是将实例数据划分到合适的分类中。 回归任务主要用于预测数值型数据。二者均属于监督学习。
(3)监督学习:这类算法必须要知道预测什么,即目标变量的分类信息。
无监督学习:数据没有类别信息,也不会给定目标值。
- 聚类:将数据集合分成由类似的对象组成的多个类的过程称为聚类。
- 密度估计:寻找描述数据统计量的过程称为密度估计。
三、如何选择合适的算法
首先考虑两个问题:①使用算法的目的②需要分析或收集的数据是什么
四、开发机器学习应用程序的步骤
(1)收集数据
(2)准备输入数据
(3) 分析输入数据:是否存在控制,是否可以识别出模式,是否存在明显的异常值
(4)训练算法:将前两步得到的格式化数据输入到算法,从中抽取知识或信息,将需要得到的信 息存储为计算机可以处理的格式。 若使用无监督学习算法,由于不存在目标变量值,故不需 要训练算法。
(5)测试算法:对于监督学习,必须一致用于评估算法的目标变量值;对于无监督学习,也必须 用其他的评测手段来检测算法的成功率。
(6) 使用算法:使用应用程序处理。