Task01：概览西瓜书+南瓜书第1、2章

最新推荐文章于 2024-07-19 16:33:18 发布

weixin_45592399

最新推荐文章于 2024-07-19 16:33:18 发布

阅读量2.2k

点赞数

文章标签：机器学习算法深度学习

本文链接：https://blog.csdn.net/weixin_45592399/article/details/121346052

版权

目录第一章基本术语假设空间第二章模型评估与选择处理数据集的方法性能度量什么是机器学习？机器学习所研究的主要内容是‘算法’，在计算机上从数据中产生“模型”（model）的算法，这个算法称之为“学习算法”。之后，我们就可以使用这个模型，给出输入，得到输出第一章基本术语一条数据（色泽=青绿；根蒂=蜷缩；敲声=浊响）数据集（data set）：一组记录的集合称为一个数据集。示例（instance）/样本（sample）：在一个数据集中，其中的每条记录都是对一个事件或者对象的描述，称为示例（insta

摘要由CSDN通过智能技术生成

第一章

基本术语

一条数据（色泽=青绿；根蒂=蜷缩；敲声=浊响）
数据集（data set）：一组记录的集合称为一个数据集。
示例（instance）/样本（sample）：在一个数据集中，其中的每条记录都是对一个事件或者对象的描述，称为示例（instance）或样本（sample）
注意：数据集有时也称作样本，因为它也是样本空间的一个采样。需要结合上下文判断
属性（attrribute）/特征（feature）：反映事件或对象在某方面的表现或性质的事情。如“色泽”
属性值（attribute value）：属性上的取值，书中例子为“青绿” “乌黑” 。
属性空间（attribute space）/样本空间（sample space）/输入空间：属性张成的空间，例如我们把"色泽" “根蒂” “敲声"作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置.由于空间中的每个点对应一个坐标向量，因此我们也把一个示例称为一个 “特征向量” (feature vector).
学习（learning）/训练（training）：从数据中学得模型的过程。训练过程中使用的数据称为"训练数据” (training data)，其中每个样本称为一个训练样本" (training sample), 训练样本组成的集合称为"训练集" (training set)。
学得模型对应了关于数据的某种潜在的规律，因此模型也称为假设（hypothesis）。
这种潜在规律自身，则称为"真相"或"真实" (ground-truth)，学习过程就是为了找出或逼近真相。
本书有时也将模型称为“学习器”（learner）
标记：关于示例结果的信息，例如“好瓜”，称为标记
示例：拥有了标记信息的示例，则称为样例
标记空间/输出空间：就是所有标记的集合，

分类：预测的结果是离散值
回归：预测的结果是连续值

假设空间

假设空间的分析，转自https://www.lilinchao.com/archives/909.html

假设空间的表示：
假设空间的表示形式为“（色泽=？）∧(根蒂=？)∧（敲声=？）”。
表示形式确定了，假设空间的规模大小就确定了
规模大小的计算：
以书中的例子，我们知道对好瓜的判断由色泽，根蒂，敲声来确定。每个属性的属性值都有三种可能，另外，对于每个属性，如“色泽”，也许取什么值都合适，即通配符“”。因此每个属性有四种取法。
因而可得假设空间大小为 44*4 + 1 =65
版本空间：对于一个数据集，可能是存在着多个假设都与训练集一致，这多个假设组成的集合就称为“版本空间”

第二章模型评估与选择

处理数据集的方法

机器学习中的模型选择:1.选择哪种学习算法2.选择哪种参数配置
我们只有一个包含m个样例的数据集D，需要进行处理得到训练集S和测试集T。
法1留出法
思想：将D划分成两个互斥的子集，一个作S，一个作T
注意：该方法，需采用若干次随机划分，每次划分进行评估，结果取所有结果的平均值
划分时一般，2/3-4/5用作训练
法2交叉验证法（k折交叉验证）
思想：将D划分为k个大小相近的互斥子集。使用k-1个子集的并集作为训练集，剩下那个作为试集。
注意：该方法也要进行若干次随机划分。
若进行10级划分，进行10折交叉验证，则会进行10*10次训练
k一般取10，也有5，20
法3自助法
自助采样也称为可重复采样，有放回采样
思想：通过自助采样对数据集D进行采样得到数据集D’，将D’作为训练集，D-D’作为测试集
优点：适用于数据集较小，难以有效划分训练/测试集时
缺点:引入估计偏差
2.2.4调参

性能度量

衡量学习器泛化能力的评价标准称为性能度量
对于回归任务
1.均方误差
对于分类任务
1.错误率和精度
在这里插入图片描述
2.查准率、查全率与F1

weixin_45592399

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Task01：概览西瓜书+南瓜书第1、2章

目录第一章基本术语假设空间第二章模型评估与选择处理数据集的方法性能度量什么是机器学习？机器学习所研究的主要内容是‘算法’，在计算机上从数据中产生“模型”（model）的算法，这个算法称之为“学习算法”。之后，我们就可以使用这个模型，给出输入，得到输出第一章基本术语一条数据（色泽=青绿；根蒂=蜷缩；敲声=浊响）数据集（data set）：一组记录的集合称为一个数据集。示例（instance）/样本（sample）：在一个数据集中，其中的每条记录都是对一个事件或者对象的描述，称为示例（insta
复制链接

扫一扫