2022五月组队学习——吃瓜教程:task01

不含运费

已于 2022-05-18 04:06:41 修改

阅读量565

点赞数 1

分类专栏：西瓜书文章标签：机器学习人工智能深度学习

于 2022-05-18 04:05:25 首次发布

本文链接：https://blog.csdn.net/weixin_70336461/article/details/124833774

版权

西瓜书专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第一章绪论

西瓜书的开源自取（大家可以在这个里面自己看喔这也是我喜欢dw的理由之一喔）

1.1 引言

机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从从数据中产生"模型" (model) 的算法，即"学习算法" (learning algorithm)，并利用规律对未知数据进行预测的算法。（总结中和书中"模型"泛指从数据中学得的结果）

1.2 基本术语

基本术语概念大家就看看表吧，讲真整理表还是挺累的。

术语	英文	自我总结的概念
数据集	data set	样本集合或数据的集合
样本（示例）	simple（instance）	数据集中对一个事件或对象的描述
属性（特征）	attribute (feature)	反映事件或对象在某方面的表现或性质的事项
属性值	attribute value	属性上的取值（个人理解为属性的具体化）
属性空间	attribute space	属性张成的空间（个人理解为属性的坐标化或空间化）
特征向量	feature vector	一个样本在属性空间对应的坐标向量（个人理解浅浅为属性值和属性空间的结合）
维数	dimensionality	样本的属性描述个数（属性个数）
学习器	learner	可以理解为模型（本文也会用学习器代表模型）
标记	label	样本的"结果"信息
样例	example	拥有了标记信息的示例（样本+label）
标记空间（输出空间）	label space	所有标记的集合
分类	classification	学习任务为预测离散值
回归	regression	学习任务为预测连续值
训练样本	training sample	从数据中学得模型的过程称为"学习" 或"训练" ，训练过程中使用的数据中的每一个样本
测试样本	testing sample	学得模型后，使用其进行预测，被预测的样本称为测试样本，
聚类	clustering	即将训练集中的样本分成若干组，并这些组不进行标记。（不拥有标记信息的分类）
簇	cluster	聚类分成的每一个组
泛化能力	generalization ability	.学得模型适用于新样本的能力

部分术语的表达式:

术语	表达式
表示包含m 个示例的数据集	D= $\left \{ x_{1},x_{2},x_{3},... ,x_{m}\right \}$
第i个示例	$x_{i} = \left \{ x_{i1};x_{i2};x_{i3}...x_{id}\right \}$
$x_{i}$ 在第j个属性上的取值	$x_{ij}$
测试的例子x的预测标记	f(x)

其中监督学习和无监督学习的分类，是根据训练数据是否拥有标记信息。

监督学习的代表是回归和分类，而无监督学习的代表是聚类。

1.3 假设空间

在了解假设空间的时候我们先了解一波两大科学推理的基本手段：归纳和演绎。

归纳是从特殊到一般的"泛化" (generalization) 过程，即从具体的事实归结出一般性规律;而对于演绎则是从一般到特殊的"特化" (specialization)的过程，即从基础原理推演出具体状况。

而机器学习正是用的归纳学习的方法，"从样例中学习"。

而假设空间可以理解为所有假设(hypothesis) 组成的空间，而学习的过程可以看作在这个空间进行搜索的过程。搜索目标是找到与训练样本集"匹配" 的假设，即能够将训练集中的样例判断正确的假设.假设的表示一旦确定，假设空间及其规模大小就确定了。

可以有许多策略对这个假设空间进行搜索，例如自顶向下、从一般到特殊，或是自底向上、从特殊到一般，搜索过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设.最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设，这就是我们学得的结果。

而我们学的结果和目标（即机器学习的目标）以样本中的模型具有适用于新样本的高"泛化"能力.

1.4 归纳偏好

由于才疏学浅，这个部分就暂时不给大家归纳了。（主要看不懂啊呜呜，等我后面学飘了我在回来写写希望那个时候我还记得。）

后面的啥发展历程、应用现状和阅读材料我就暂时不写了，互联网看看文献，机器学习现在的火热大家懂的都懂。

第二章模型评估与选择

终于到第二章了讲真前面做表格是最累的，那我们也终于开始往机器学习的门那边走了。当然这一章后面也有省略不写的，原因我也就不说了，还是一句话，等我学飘了，我再回来写。

2.1 经验误差与过拟合

先讲两个概念

通常我们把分类错误的样本数占样本总数的比例称为"错误率" (error rate) .相应的，精度=1 - 错误率

错误率： $E= \frac{a}{m}$ /**表示在m个样本中有a个样本分类错误**/

精度： $1-E$

更一般地，我们把学习器的实际预测输出与样本的真实输出之间的差异称为"误差" (error) , 学习器在训练集上的误差称为"训练误差" (training error) 或"经验误差" (empirical error) ，在新样本上的误差称为"泛化误差" (generalization error)。

而我们做机器学习的目标就是使得自己的模型的泛化误差尽可能小，但在我们事先并不知道新

样本是什么样，实际能做的是努力使经验误差最小化（怎么说呢，经验误差大的很多原因也和他的名字相同，就是经验的犯错）。

而在我们努力使得经验误差最小化的时候我们会出现，两种问题，一个是过拟合（"过配"），一个是欠拟合（"欠配"）。

过拟合：学习能力过于强大，把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降。（一些没必要的特性都学了，这就叫过分卷也会出问题。）

欠拟合：学习能力低下。对训练样本的一般性质尚未学好。（眼高手低，摆烂都是不可取滴.）

哦对文章中有一个概念是NP难的概念，咋说呢这个概念比较难又比较容易理解，我姑且理解为能不能在有效时间内完成的问题。（我的理解其实很有可能是有毛病的，毕竟世界7大数学难题我这么肤浅的理解，被正经数学家看见会被打的）

但是呢我也讲不通这个问题大家可以参考个博主写的理解np难问题的文章

2.2 评估方法

通常，我们可通过实验测试来对学习器的泛化误差进行评估并进而做出选择，为此，需使用一个 "测试集 (testin g set) 测试学习器对新样本的判别力，然后测试上的"测试误差" (testi ng error) 作为泛化误差的近似。而如何选择测试集并进行评估也是有方法的

2.2.1 留出法

直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S，另一个作为测试集T。在S上训练出模型后，用T来评估其测试误差，作为对泛化误差的估计。

我们希望评估的是用D训练出的模型的性能，但留出法需划分训练/测试集，这个划分过大过小都会出问题，这个问题没有完美的解决方案常见做法是将大约2/3~4/5 样本用于训练，剩余样本用于测试。

2.2.2 交叉验证法

将数据集D划分为k 个大小相似的互斥子集，每次选用k-1个子集的并集作为训练集，余下的那个子集作为测试集。从而可以进行k次测试和训练，最终返回k个测试结果的均值。如图2.2

2.2.3 自助法

“自助法”(bootstrapping)以自助采样法(bootstrap sampling)为基础. 给定包含m个样本的数据集D,我们对它进行采样产生数据集D，每次随机从D中挑选一个样本，将其拷贝放入D’，然后再将该样本放回初始数据集D中，使得该样本下次采样时仍有可能被采到；这个过程重复执行m次后，我们就得到了包含m个样本的数据集D’，这就是自助采样的结果。

自助法在数据集较小、难以有效划分训练/测试集时很有用。

2.2.4 调参与最终模型

大多数学习算法都有些参数(parameter)需要设定，参数配置不同，学得模型的性能往往有显著差别，因此，在进行模型评估与选择时，除了要对适用学习算法进行选择，还需对算法参数进行设定，这就是通常所说的“参数调节”或简称“调参”(parameter tuning)。

调参主要还是得靠经验，能否有效就得看是调参侠的独到经验了。

2.3 性能度量

衡量模型泛化能力的评价标准，就是性能度量。

回归任务最常用的是"均方误差":

$E\left (f;D\right)= \frac{1}{m}\sum_{i=1}^{m}\left (f(x_{i}) -y_{i} \right )^{2}$ （2.2）

更一般的，对于概率分布和概率密度p（.）,均方误差可描述为：

$E\left ( f;D\right )=\int _{x\sim D}\left ( f(x_{i})-y_{i})^{2}p(x)dx \right )$ （2.3）

下面主要讲的是分类任务的常用的性能度量

2.3.1错误率与精度

参考2.1所讲的概念

错误率是分类错误的样本数占样本总数的比例，精度则是分类正确的样本数占样本总数的比例。

而分类错误率定义为：

2.3.2 查准率、查全率与Fl

对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive) 、假正例 (false positive) 、真反例 (true negative)、假反例 (false negative) 四种情形，令 TP FP TN FN 分别表示其对应的样例数，则显然有 TP+FP+TN+FN= 样例总数.分类结果的"混淆矩阵"如表2.1所示