西瓜书知识总结(第一、二章)

第一章基本术语:

  • 属性(attribute)或者特征(feature)构成属性空间(attribute space)、样本空间(sample space)或输入空间
  • d维样本空间 X X X,d即属性的个数
  • Y Y Y是标记空间(label space)或输出空间
  • 机器学习大致分为监督学习(supervised learning)与非监督学习(unsupervised learning)
  • 学得模型适用于新样本的能力,称为"泛化能力"
  • 假设空间,我的理解就是样本属性所有可能的组合集合空间
  • 版本空间,即与训练集一致的"假设集合"
  • “奥卡姆剃刀原理”:越简单越好
  • “没有免费的午餐(NFL)”:没有最好的算法,只有最合适的算法

第二章基本术语:

  • 经验误差:在训练集上的误差
  • 泛化误差:在新样本上的误差
  • 过拟合和欠拟合:简单来说就是拟合太好了和拟合不够
  • 评估方法:
    留出法(正常划分训练集和测试集)
    交叉验证法(分为k组,取出一组作为测试集,一共有k次训练),重复p次,即“p次k折交叉验证”
    交叉验证一个特例:留一法,即每个子集包含一个样本
    自助法:在数据集D中有放回的采样得到D’,将D’作为训练集,D\D‘即剩下的作为测试集,这样的测试 结果亦称“包外估计”,自主法适用于小数据集、难以划分数据集时使用
  • 性能度量:
    错误率和精度
    查准率和查全率(PR曲线),分别为预测的正例中有多少对的、真的正例中有多少被预测出来的
    F 1 F_1 F1度量、 F β F_{\beta} Fβ度量,即分别为查准率和查全率的调和平均、加权调和平均
    ROC曲线(真正例率与假正例率)、AUC(ROC曲线下的面积)
    代价敏感错误率和代价曲线
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值