概览西瓜书+南瓜书第1、2章

最新推荐文章于 2024-08-23 22:17:33 发布

玉骨.

最新推荐文章于 2024-08-23 22:17:33 发布

阅读量125

点赞数 2

分类专栏：思考文章标签：机器学习线性回归

本文链接：https://blog.csdn.net/weixin_43952924/article/details/132842884

版权

思考专栏收录该内容

5 篇文章 0 订阅

订阅专栏

CH1：基本术语

在这里插入图片描述

属性空间、样本空间、输入空间
- 每个实例是d维样本空间一个向量
- 假设样本 “独立同分布” (independent and identically
- distributed ，简称 i.i.d.).
“泛化” (generalization) 能力
假设空间与版本空间
- 假设空间：把学习过程看作一个在所有假设(hypothesis) 组成的空间中进行
- 版本空间：即存在着一个与训练集一致的"假设集合"，我们称之为"版本空间" (version space).
- 假设空间与版本空间区别进一步理解就是：房价预测问题的假设空间为一元一次函数，用算法学习模型就是从一元一次函数空间中学得某个一元一次函数，而这个问题也可能是个多项式回归，所以说可以有多个假设空间，所有能够拟合训练集的模型构成的集合就是版本空间
归纳偏好
- 不同算法有不同偏好
- 选择上就是基于模型在测试集上的表现来评判模型之间的优劣
CH2：模型评估与选择
几个术语
- 错误率
  - 把分类错误的样本数占样本总数的比例称为"错误率"
- 精度
  - 1-错误率
- 误差
  - 训练集上的训练误差/经验误差
  - 新样本泛化误差
- 过拟合与欠拟合
评估
- 留出法
  - 就是数据集D划分为两个集合，训练集和测试集
  - 注意保持数据分布一致性
  - 实际中一般采用多次随即划分取均值
- 交叉验证法
  - 划分k个，用k-1训练，余下的一组测试，获得k组，k次训练和测试，返回均值
  - k=m，留一法
- 自助法
  - 在包含m个样本的数据集D中重复执行m次自主采样后,得到了包含m个样本的数据集 D’
  - 训练集是D,测试集是D-D’（约1/3样本）
性能度量
- 回归
  - 均方误差
- 分类
  - 错误率、精度
  - 查准率
    - 被学习器预测为正例的样例中有多大比例是真正例
  - 查全率
    - 所有正例当中有多大比例被学习器预测为正例
  - 查准率查全率曲线，简称 P- R线
    - 平衡点
      - F1
  - ROC曲线
    - AUC
- 查准率与查全率矛盾
比较检验
- 基于假设检验结果我们可推断出，若在测试集上观察到学习器A比B好，则A的泛化性能是否在统计意义上优于 B，以及这个结论的把握有多大.
偏差与方差
- 期望输出与真实标记的差别称为偏差(bias)
- 使用样本数相同的不同训练集产生方差
- 噪声：在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度
泛化误差可分解为偏差、方差与噪声之和.