datawhale组队学习task1(跳过的后续补充)

最新推荐文章于 2024-09-04 20:23:24 发布

_Viva_La_Vida_

最新推荐文章于 2024-09-04 20:23:24 发布

阅读量77

点赞数

分类专栏：机器学习笔记文章标签：学习人工智能

本文链接：https://blog.csdn.net/weixin_46053210/article/details/128719945

版权

机器学习笔记专栏收录该内容

4 篇文章 1 订阅

订阅专栏

机器学习关注于通过数据改善算法性能，涉及数据集、示例、属性和标记的学习。监督学习中，目标是从训练数据构建映射函数，预测输出。误差分为训练误差和泛化误差，过拟合和欠拟合是训练模型时需避免的问题。评估模型常用方法包括留出法、交叉验证和自助法，而回归任务的性能度量常使用均方误差。

摘要由CSDN通过智能技术生成

第一章绪论

引言

机器学习致力于研究如何让通过计算的手段，利用经验来改善自身的性能；
经验通常以数据的形式存在，因此，机器学习所研究的内容，是关于在计算机上从数据中产生模型的算法，即学习算法

基本术语

数据集：(色泽=青绿;根蒂=蜷缩;敲声=浊响)， (色泽=乌黑;根蒂:稍蜷;敲声=沉闷)， (色泽=浅自;根蒂硬挺;敲声=清脆)，……

示例/样本：(色泽=青绿;根蒂=蜷缩;敲声=浊响)

属性/特征：色泽、根蒂、敲声

属性值/特征值：青绿、乌黑…

样本空间/属性空间/输入空间：属性值张成的空间，例如我们把"色泽" “根蒂” "敲声"作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置。

特征向量：于空间中的每个点对应一个坐标向量，因此我们也把…个示例称为一个 “特征向量”

一般地，
$\{x_1,x_2,...x_m\} \\ 可以看成 D = \{\vec{x_1},\vec{x_2},...\vec{x_m}\}$
表示包含个示例的数据集，每个示例由个属性描述(例如上面的西瓜数据使用了个属性，则每个示例
$\vec{x_i} = x_i = (x_{i1},x_{i2},...x_{id})$
维样本空间中的一个向量 Xi 其中 Xij 凯在第个属性上的取值(例如上述第个西瓜在第个属性上的值是"硬挺" ), 称为样本院的"维数" (dimensionality).

$((色泽 : 青绿; 根蒂二蜷缩; 敲声 = 浊响) ，好瓜)$

”好瓜“ ：标记（label）

样例：拥有标记信息的示例

标记空间\输出空间 :
$一般的，用(x_i,y_i)表示第i个样例，其中y_i\in Y是示例x_i的标记 \\ Y是所有标记的集合, 被称为标记空间或者输出空间$

分类与回归

一般地，预测任务是希望通过对训练

${(x_1, y_1) , (x_2 , y_2) ,..., (x_m, y_m)\}$

进行学习，建立一个从输入空间到输出空间的映射
$\chi \longmapsto Y.$
对二分类任务，通常令
$\{-1 ，+ 1\}\quad 或 \quad\{0，1\};$

多分类任务：
$\quad\quad \\* |\{···\}| 表示集合\{···\}中的元素$
对回归任务，
$Y = R ， R 为实数集 .$

假设空间

机器学习中可能的函数构成的空间称为“假设空间”。

监督学习的目的在于学习一个由输入到输出的映射，这一映射由模型来表示。换句话说，学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间（hypothesis space）。假设空间的确定意味着学习的范围的确定。

---- 百度百科

归纳偏好

先跳过

第二章模型评估与选择

经验误差与过拟合

把分类错误的样本数占样本总量的比例称为**“错误率”**，即如果在m个样本中有a个样本分类错误，则错误率
$a/m\\ 相应的\quad 1-a/m \quad称为精度\\ 一般写为 \quad E = （1-a/m)*100\% \quad$
误差、训练误差、经验误差、泛化误差
1. 学习器的实际预测输出与样本的真实输出之间的差异称为"误差" (error),
2. 学习器在训练集上的误差称为"训练误差" (training error) 或"经验误差" (empirical error)
3. 在新样本上的误差称为"泛化误差" (generalization error).
过拟合和欠拟合

“我们实际希望的，是在新样本上能表现得很好的学习器.为了达到这个目的，应该从训练样本中尽可能学出适用于所有潜在样本的"普遍规律”，这样才能在遇到新样本时做出正确的判别.然而，当学习器把训练样本学得"太好"了的时候，很可能巳经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降这种现象在机器学习中称为 “过拟合” (overfitting). 与"过拟合"相对的是"欠拟合" (underfitting) ，这是指对训练样本的一般性质尚未学好."

--------- 西瓜书

评估方法

目的与背景

机器学习需要将数据集分为测试集和训练集，用训练集得出的模型在测试集上得出测试误差，所以测试集应该尽量的与训练集相互互斥。

1. 留出法

直接将数据集 D划分为两个互斥的集合，其中一个集合作为训练集 S，另一个作为测试集 T，即
$S\cup T, S\cap T = \emptyset$
在 S上训练出模型后，用 T来评估其测试误差，作为对泛化误差的估计.常见做法是将大约4/5 样本用于训练，剩余样本用测试。

2. 交叉验证呢法

“交叉验证法” (cross alidation) 将数据D分为k个大小相似的互斥子集，
$D_1\cup D_2 \cup ...\cup D_k, D_i\cap D_j = \emptyset (i\neq j)$
每个子集Di尽可保持数据分布的致性，即从D通过分层采样得到.然后，每次用 k-1 子集的并集作为训练集。余下的那个子集作测试集;这样就可获得k组训练/测试集，从而可进行k次训练和测试?.最终返回的是K个测试结果的均值。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XiR7EeZv-1673955633014)(C:\Users\puthmars\AppData\Roaming\Typora\typora-user-images\image-20230117190957632.png)]

3. 自助法

问题：在留出法和交叉验证法中，由于保留了一部分样本用于测试，造成的结果就是实际评估的模型所使用的训练集比D小。

自助法给定m个样本的数据集D，我们对他进行采样产生数据集D’ :每次随即从D中跳出一个样本，将其拷贝放入D’，然后再将该样本放回初始的数据集D中，使得下一次能够被再次采到。这个过程经过m次后，可以得到包含m个样本的数据集D’。
$样本在m次采样中始终不被采到的概率是\quad (1-\frac{1}{m})^m \quad 取极限得\\ \lim_{m\rightarrow+\infty}(1-\frac{1}{m})^m = \frac{1}{e} \approx 0.368$