概览西瓜书+南瓜书第1、2章

CH1:基本术语

在这里插入图片描述

  • 属性空间、样本空间、输入空间

    • 每个实例是d维样本空间一个向量

    • 假设样本 “独立同分布” (independent and identically

    • distributed ,简称 i.i.d.).

  • “泛化” (generalization) 能力

  • 假设空间与版本空间

    • 假设空间:把学习过程看作一个在所有假设(hypothesis) 组成的空间中进行

    • 版本空间:即存在着一个与训练集一致的"假设集合",我们称之为"版本空间" (version space).

    • 假设空间与版本空间区别进一步理解就是:房价预测问题的假设空间为一元一次函数,用算法学习模型就是从一元一次函数空间中学得某个一元一次函数,而这个问题也可能是个多项式回归,所以说可以有多个假设空间,所有能够拟合训练集的模型构成的集合就是版本空间

  • 归纳偏好

    • 不同算法有不同偏好

    • 选择上就是基于模型在测试集上的表现来评判模型之间的优劣

    CH2:模型评估与选择

    在这里插入图片描述

  • 几个术语

    • 错误率

      • 把分类错误的样本数占样本总数的比例称为"错误率"
    • 精度

      • 1-错误率
    • 误差

      • 训练集上的 训练误差/经验误差

      • 新样本 泛化误差

    • 过拟合与欠拟合

  • 评估

    • 留出法

      • 就是数据集D划分为两个集合,训练集和测试集

      • 注意保持数据分布一致性

      • 实际中一般采用多次随即划分取均值

    • 交叉验证法

      • 划分k个,用k-1训练,余下的一组测试,获得k组,k次训练和测试,返回均值

      • k=m,留一法

    • 自助法

      • 在包含m个样本的数据集D中重复执行m次自主采样后,得到了包含m个样本的数据集 D’

      • 训练集是D,测试集是D-D’(约1/3样本)

  • 性能度量

    • 回归

      • 均方误差
    • 分类

      • 错误率、精度

      • 查准率

        • 被学习器预测为正例的样例中有多大比例是真正例
      • 查全率

        • 所有正例当中有多大比例被学习器预测为正例
      • 查准率 查全率曲线,简称 P- R线

        • 平衡点

          • F1
      • ROC曲线

        • AUC
    • 查准率与查全率矛盾

  • 比较检验

    • 基于假设检验结果我们可推断出,若在测试集上观察到学习器A比B好,则A的泛化性能是否在统计意义上优于 B,以及这个结论的把握有多大.
  • 偏差与方差

    • 期望输出与真实标记的差别称为偏差(bias)

    • 使用样本数相同的不同训练集产生方差

    • 噪声:在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度

  • 泛化误差可分解为偏差、方差与噪声之和.

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值