定义
从数据中提取知识
是统计学、人工智能、计算机科学的交叉学科
优点
解决一个问题时, 不必需求改变一点就重新写整个系统
分类
监督学习
在训练时有输入数据和输出数据对机器进行训练,在正式测试时能够根据训练结果使得输出更加准确
无监督学习
在训练时只有输入数据,没有输出数据
- 无论是监督学习还是无监督学习,将输入数据表征为计算机容易理解的数据形式都非常重要
- 计算机最容易理解的数据表征是表格形式
- 如何构建良好的数据表征,称为特征提取或者特征工程
- 一般来说,表格形式的数据,一行称为一个样本或数据点,一列称为特征
解决的问题
在机器学习中,最重要的是你能够理解数据的内容,以及数据与你要解决的问题之间的关系
在开始构建模型之前,你要理解你的数据集的数据,每一种算法适合的数据类型输入以及擅长解决的问题都不一样
- 监督学习时最常用也是最常用机器学习类型之一
- 给定输入来预测输出的某个结果,并且还有输入输出的示例时,使用监督学习
给定的输入输出示例构成了训练集,我们利用训练集来构建机器学习模型
构建完模型后利用这个模型对新出现的数据做出准确预测,这是我们的目标
监督学习需要人力来构建数据集,但是之后的任务非常快
分类与回归
监督学习的问题主要分为分类问题和回归问题
分类
- 分类问题是对一个新数据进行分类,预测它们的类别标签,这些标签是来自预定义的可选列表中的,也就是类别是提前就有的
- 分类问题分为二分类问题和多分类
- 二分类:预定义的类别标签就两个
二分类的类别分为正类和反类
- 多分类:有两个以上的预定义类别标签
回归
- 回归任务的目标是预测一个连续值,编程术语叫作浮点数(floating-point number),数学术语叫作实数(real number)。
区分分类任务和回归任务有一个简单方法,就是问一个问题:输出是否具有某种连续性
如果在可能的结果之间具有连续性,那么它就是一个回归问题
泛化、过拟合和欠拟合
- 泛化
机器学习就是在训练集上构建数据,然后对新数据做出预测
如果可以对新数据做出准确预测,这个模型就有泛化能力
我们需要构建一个泛化精度较高的模型
- 过拟合
模型过于复杂,考虑了很多不太相干的因素
- 欠拟合
模型过于简单