周志华西瓜书学习笔记(一)

周志华西瓜书笔记(一)

以下是西瓜书第1章和第2章的笔记。不过第1章和第2章大部分是一些术语和概念,有一些知识点没有看过后续内容会比较难理解,就暂时跳过。主要是:第1章:【1.4-归纳偏好】可以跳过;第2章:【2.3.3-ROC与AUC】及其以后的都可以跳过

第一章 绪论

机器学习的主要内容

​ 机器学习所研究的主要内容是关于在计算机上从数据中产生“模型”的算法,即“学习算法”(Learning algorithm)

基本术语

假定我们收集了一批关于西瓜的数据,如表

色泽 根蒂 敲声 是否好瓜
青绿 蜷缩 浊响
乌黑 稍蜷 沉闷
浅白 硬挺 清脆

数据集:这些记录的集合成为数据集

示例:数据集中每条记录是关于一个事件或对象的描述,称为“示例”或“样本”

属性:反映事件或对象在某方面的表现或性质的事项,例如:“色泽”、“根蒂”等

属性值:顾名思义即属性上的取值,例如“青绿”、“蜷缩”等

特征空间:例如我们把“色泽”、“根蒂”、“敲声”作为三个坐标轴,就会形成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置,空间中的每个点就对应一个坐标向量,因此我们可以把一个实例称为一个“特征向量”(数据向量化是机器学习的重要步骤)

维数:样本空间D中包含了m个示例,每个示例中是d维的样本空间,d称为维数。

机器学习分类

根据训练数据是否拥有标记,学习任务主要分为两类:

  • 监督学习:样本有标记(如是否为好瓜)
    • 欲预测的是离散值,此类学习任务称为“分类”
    • 欲预测的是连续值,此类学习任务称为“回归”
  • 无监督学习:样本无标记
    • 聚类是无监督学习的典型代表

模型的泛化能力

泛化能力是指学得模型适用于新样本的能力,能够反映出样本空间特性的训练集越有可能经过学习得到具有强泛化能力的模型。一般而言,训练样本越多,我们得到的关于未知分布的信息就越多,这样就越有可能通过学习获得具有强泛化能力的模型。

归纳和演绎是科学推理的两大基本手段。前者从特殊到一般,从具体的事实归结出规律;后者则是一般到特殊,由基础原理推导出具体情况。“从样例中学习”的机器学习是一种归纳学习。

第二章 模型的评估与选择

经验误差与过拟合

错误率:分类错误的样本数占样本总数的比例

精度:1-错误率

例:

m个样本中,有a个样本分类错误
错误率E=a/m,
精度=1-a/m

误差:学习器的实际预测输出与样本的真实输出之间的差异

  • 学习器在训练集上的误差称为“训练误差”或“经验误差”
  • 学习器在新样本上的叫“泛化误差”

很多时候我们会努力训练得到经验误差很小、在训练集上表现很好吗,甚至对所有训练样本的正确的学习器,但这样的学习器可能在新样本中表现不好,这便是出现了“过拟合”。而与过拟合相对的,是“欠拟合”。书上的示意图能很好的解释两者的定义。
在这里插入图片描述
在这里插入图片描述

评估方法

通过对数据集D进行适当的处理,从中产生训练集S和测试集T,具体方法有以下几种:

  1. 留出法:直接将数据集D划分成两个互斥的集合S和T,在S上训练,在T上测试
  • 要注意的是,训练/测试集的划分尽可能保持数据分布的一致性,避免因划分过程引入额外的偏差。比如,在分类任务中,可以采用分层抽样的方法。另一个需要主要的问题是,单词使用留出法得到的估计结果往往不够可靠,一般要采用若干次随机划分,重复试验评估取平均值。

  • 缺点:若训练集包含绝大多数样本,则训练出的模型可能更接近于用D训练出来的模型,但由于T比较小,评估结果可能不够稳定准确;若令测试集多一些样本,则测试集S与D差别更大,被评估的模型与用D训练处的模型相比可能有较大差别,从而降低了评估结果的保真性。

  1. 交叉验证法:首先,将D划分成k个大小相似的互斥子集,注意要保证每个子集 $D_i $都尽可能保持数据分布的一致性,即从D中通过分层采样得到。其次,每次用k -1个子集的并集作为训练集,余下的那个作为测试集,从而进行k次训练,返回的结果取均值。

    为强调这一点,通常把交叉验证法成为“k折验证法”

    留一法:即令k=m,m为数据集D中的样本个数。即只留一条样本作为测试集。
    在这里插入图片描述

  2. 自助法 :留出法和交叉验证都保留了一部分样本用于测试,导致训练集实际上比 D 小,这会引入因训练样本规模不同而导致的估计偏差。自助法是一种解决方案。我们通过对有 m 个样本的 D 进行 m 次采样得到 D',用 D' 作为训练集,D\D' 作为测试集。显然,有些样本在 D' 中出现多次,有些一次也不出现。样本在 m 次采样中都不被采样到的概率为 ( 1 − 1 m ) m (1-\frac{1}{m})^m (1m1)m ,取极限得到其概率为 1 e = 0.368 \frac{1}{e}=0.368 e1=0.368,即 D 中约有1/3的样本未出现在 D' 中。依旧有数据总量1/3的数据,不曾出现在训练集中的样本用于测试,这样的测试结果成为“包外估计”。

    优点:在数据集较小、难以有效划分训练集和测试集时很有用;同时能够产生多个不同的训练集,对集成学习有帮助

    缺点:自助法产生的数据集改变了初始数据集的分布

    在样本数量足够时,多采用留出法和交叉验证法。

调参与最终模型

对于模型中的参数,我们不可能尝试每一个实数,现实中的做法是,对每个参数选定一个变化范围和变化步长。

性能度量

性能度量就是衡量模型泛化能力的评价标准。性能度量要反映任务需求,使用不同的性能度量往往会导致不同的评判结果。

  • 在回归任务中,最常用的性能度量就是“均方误差”,即

    E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f; D) = \frac{1}{m} \sum_{i=1}^m (f(\mathbf{x}_i)-y_i)^2 E

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值