【datawhale】西瓜书+南瓜书阅读第1、2章笔记

本文介绍了机器学习的基本概念,包括模型、分类、回归和学习任务的类型。强调了泛化能力和奥卡姆剃刀原则在模型选择中的重要性。讨论了过拟合与欠拟合的问题,并详细阐述了评估模型的多种方法,如精度、查准率、查全率和ROC曲线。同时,提到了调整分类阈值对查准率和查全率的影响。
摘要由CSDN通过智能技术生成

chapter 1绪论

  1. 机器学习:通过计算手段,利用经验来改善系统自身性能。
  2. 模型:泛指从数据中学到的结果
  • 分类:预测离散值
  • 回归:预测连续值
  1. 预测过程称为“测试”
  2. 根据训练数据是否拥有标记信息,学习任务可大致划分为两大类"监督 亦称啃导f币学习"和 学习" (supervised learning) 和"无监督学习"
  3. 学得模型适用于 新样本的能力,称为"泛化" (generalization) 能力
  4. 归纳 (induction) 与横绎 (deductio丑)是科学推理的两大基本手段.前者是从 特殊到一般的"泛化" 过程,即从具体的事实归结出一般性规 律;后者则是从一般到特殊的"特化",即从基础原理推演 出具体状况
  5. 偏好:于一个具体的学习算法而言?它必须要产生一个模型.这时,学习算 法本身的"偏好"就会起到关键的作用.
  6. 奥卡姆剃刀:若有多个假设与观察一致,则选最简单的那个
  7. 所有"问题"出现的机会相 同、或所有问题同等重要,总误差与学习算法无关。

模型评估与选择

  1. 精度=1-错误率
  2. 训练集上:训练误差;新样本下:泛化误差
  3. 过拟合和欠拟合,过拟合:通过经验误差最小化就能获最优解 ,欠拟合:提高学习能力
评估方法

测试集尽量与训练集互斥

  1. 留出法:直接划分两个互斥集合,并保持数据分布一致性
  2. 交叉验证法:分成k个大小相似子集,保持数据分布一致性,每次k-1个训练,一个测试,重复多伦。
  3. 自助法:随机从D中选并放回,重复m次得到m个样本的训练集。
  4. 调参:每个参数选定范围和步长,把训练数据划分位训练集和验证集,基于验证集的性能来进行模型的选择和挑参。
性能度量
  1. 均方误差
  2. 查准率、查全率
  • TP+FP+TN+FN=样例总数
  • P查准率
  • R查全率
  • 查准率和查全率是一对矛盾的度量
    如果将所有西瓜都选上,那么所有的好瓜也必然 都被选上了,但这样查准率 就会较低;若希望选 出 的瓜中好瓜比例尽可能 高,则可只挑选最有把握的瓜, 但这样就难免会漏掉不少好瓜,使得查全率较 低.
  • P-R曲线
  • 平衡点BEP
  • F1度量

分类阈值:若大于阈值则分为正类,否则为反类。我们更重视"查准率",则可选择排序中靠前的位置进行截断;若更重视"查 全率",则可选择靠后的位置进行截断.

  • ROC曲线:给定 m+ 个正例和 m一 个反例,根据学习器预测结果对样例进行排序,然后把分类阔值设 为 最大, 即把所有样例均预测为反例,此时真正例率和假正例率均为 0 , 在坐标 (0, 0) 处 标记一个点然后,将分类 阐值依次设为每个样例的预测值,即依次将每个样例 划分为正例.然 后用线段连接相邻点即 得.
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值