写在最前面的话
通过之前17天的Python基础学习,我发现了自己学习上的一个问题,我总是把视频,公众号的推文看完后,再来打卡学习笔记。
我觉得,一是在写笔记时失去了新鲜感,二是对于整个知识的构架不够清晰,三是让自己会有浪费时间的错觉。
所以我打算在这次刻意学习中,改变一下自己的学习方式,边看书,边写学习笔记,注重知识的架构,也便于快速索引知识点。
这未必是一种好的方法,但是不尝试过就永远不知道是不是好方法。
机器学习
就是把无序的数据转换成有用的信息。
监督学习
关键术语
- 专家系统:像鸟类专家一样识别鸟的类别
- 特征:也可以称作属性,用于区分不同鸟类需要使用的四个不同的属性值
标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类)标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类)
数值型:数值型目标变量则可以从无限的数值集合中取值,如0.100,42.001等 (数值型目标变量主要用于回归分析)
- 分类:假定我们可以得到所需的全部特征信息,那该如何判断飞入进食器的鸟是不是象牙喙啄木鸟呢?这个任务就是分类
- 训练集:通常我们为算法输入大量已分类数据作为算法的训练集,训练集是用于训练机器学习算法的数据样本集合
- 目标变量:是机器学习算法的预测结果,在分类算法中目标变量的类型通常是标称型的,
而在回归算法中通常是连续型的。 - 知识表示:就是将知识符号化并将其输入计算机的过程和方法。它包含两层含义:
(1)用给定的知识结构,按一定的原则、组织表示知识;
(2)解释所表示知识的含义。 - 密度估计:将寻找描述数据统计值的过程称之为密度估计
- 聚类:将数据集合分成由类似的对象组成的多个类的过程被称为聚类;
机器学习的主要任务
- 上节的例子介绍了机器学习如何解决分类问题,它的主要任务是将实例数据划分到合适的分类中。
- 机器学习的另一项任务是回归,它主要用于预测数值型数据。
大多数人可能都见过回归的例子——数据拟合曲线:通过给定数据点的最优拟合曲线。 - 分类和回归属于监督学习,之所以称之为监督学习,是因为这类算法必须知道预测什么,即目标变量的分类信息。
- 与监督学习相对应的是无监督学习,此时数据没有类别信息,也不会给定目标值。
- 在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程被称为聚类;
- 将寻找描述数据统计值的过程称之为密度估计。