机器学习笔记(一):绪论、模型评估与选择

什么是机器学习?

利用计算机从历史数据在找出规律,并把这些规律用到对未来不确定场景的决策。

机器学习的典型应用:
(1)关联规则:啤酒+纸尿片,购物篮分析
(2)聚类:用户细分精准营销
(3)朴素贝叶斯:垃圾邮件检测
(4)决策树:风险识别
(5)ctr预估:互联网广告:百度的前多少个词条(商业广告)(按照点击率排)

基本术语

在这里插入图片描述

  • 学习(训练):从数据中学得模型的过程
  • 训练集:参与模型训练的样本集合
  • 测试:学得模型后,使用其样本进行预测的过程
  • 测试集:被预测的样本集合
  • 假设:学得模型对应的关于数据的某种潜在规律
  • 分类:输出结果是离散值
  • 回归:输出结果是连续值
  • 监督学习:训练样本有标记
  • 无监督学习:训练样本无标记
  • 泛化能力:学得模型适用于新样本的能力
  • 独立同分布:样本空间的全体样本都服从一个未知的分布,且相互独立

归纳与演绎

  • 归纳:
    从特殊到一般的“泛化”:从样例(训练样本)中学习。

  • 演绎:
    从一般到特殊的“特化”:从数学公理推导出定理

归纳偏好

  • 机器学习应该有偏好

  • 归纳偏好原则一: 奥卡姆剃刀(j简单优先)(比如光滑曲线A)
    在这里插入图片描述

经验误差与过拟合

1、真实值与预测值

误差:模型输出与样本真实值之间的差异

  • 错误率:分类错误样本数占总样本数比例
  • 精度:1-错误率
  • 训练误差:模型在训练集上的误差
  • 泛化误差:模型在新样本上的误差
  • 目标:得到泛化误差小的模型/学习器
  • 实际:新样本未知

以经验误差代表泛化误差

  • 模型从训练样本中学得适用于所有潜在样本的“普遍规律”
2、“过”与“不及”
  • 过拟合:用力过猛
  • 欠拟合:用力不足
    在这里插入图片描述

评估方法

1、训练集与测试集
  • 目标:对于模型/学习器的泛化误差进行评估
  • 专家样本:训练集+测试集
  • 训练集:训练误差
  • 测试集:测试误差
    在这里插入图片描述
    用测试误差近似表示泛化误差(要求独立同分布&互斥)
2、测试误差与泛化误差

测试误差

  • 留出法
  • 交叉验证
  • 自助法

(1)留出法

  • 训练集+测试集:互斥互补
  • 训练集训练模型,测试集测试模型
  • 合理划分、保持比例
  • 单次留出与多次留出
  • 多次留出法:如对专家样本随机进行100次训练集/测试集划分,评估结果取平均

(2)交叉验证法

  • K折交叉验证:将专家样本等份划分为K个数据
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值