交叉验证(cv)学习笔记

  1. 交叉验证可用于机器学习训练模型的性能评价,也可进行参数寻优。
  2. 普通的划分数据集的方法:直接将样本数据分为训练和验证数据集。缺点:没有用到交叉的方法,验证数据集对于模型的训练没有任何贡献。
  3. 常用的交叉验证的方法:
    1. k-flod cv:
      1. 样本数据分为k组,每次将一组作为验证数据集,其余的k-1组作为训练数据集。则得到k个训练模型,将k个模型的验证准确率的均值作为模型的性能指标
      2. 优点:所有样本都会被用于模型训练,评价结果可信。
    2. leave-one-out cv:设原始数据集中有n个样本,每次选择一个样本作为验证数据集,其余n-1个样本作为训练数据集,则会有n个训练模型,将n个训练模型的验证准确率平均值为模型的性能指标。
      1. 优点:同上
      2. 缺点:需要训练的模型较多,且训练数据集较大,计算成本高
  4. 为进一步提高模型在预测未知数据的性能,需要对不同的参数设置进行调优和比较,该过程称为模型选择。针对某一特定问题,调整参数以寻求最优超参数的过程。
  5. 根据偏差和方差判断模型训练情况:
    1. 偏差描述的是预测值和真实值之间的差距
    2. 方差描述的是预测值的变化范围,离散程度,方差越大,预测结果数据的分布越分散。
    3. 高偏差就是欠拟合,高方差就是过拟合。因为偏差是指我们忽略了多少数据,方差是指模型对数据的依赖程度
    4. 高方差:模型根据训练数据集显著变化
    5. 验证集可以防止过拟合。
  6. 设置预测试评估模型,并在真正测试之前进行改进,这种预测试称为验证集。
  7. 评价数据拟合程度的好坏,使用代价函数J=aJtrain(训练集误差)+bJcv(交叉验证集误差)
  8. 正则化项:
    1. 一般是模型复杂度的单调递增函数,模型越复杂,正则化项值越大,比如正则化项可以是模型参数向量的范数。
    2. 从贝叶斯估计的角度来看,正则化项对应于模型的先验概率
    3. L1、L2正则化可以理解为模型导入了先验分布,L1正则化引入了拉普拉斯分布,L2正则化引入了高斯分布。
      1. 拉普拉斯分布在0值附近突出,而高斯分布在0值附近分布平缓,两边分布稀疏。对应地(实际是反对应,因为训练过程是要最小化损失),L1正则倾向于稀疏模型,L2正则对权值高的参数惩罚重。
    4. 正则化项对应后验概率估计中的先验信息,损失函数对应似然函数,两者乘积得到贝叶斯最大后验概率。
    5. 对贝叶斯后验概率取对数可转化为损失函数+正则化项。
    6. 最大似然:所有样本概率相乘最大化
  9. 根据数据集选择训练方法:
    1. 当给定的数据充足,将数据切分为训练集(训练模型),验证集(模型选择),测试集(模型评估)。选择验证集有最小预测误差的模型
    2. 当数据集不充足时,采用交叉验证(重复的利用数据)
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值