交叉验证（cv)学习笔记

最新推荐文章于 2024-06-16 15:15:00 发布

Wsyoneself

最新推荐文章于 2024-06-16 15:15:00 发布

阅读量1.2k

点赞数 1

分类专栏： deeplearning 文章标签：机器学习 python 人工智能

本文链接：https://blog.csdn.net/weixin_45647721/article/details/125959791

版权

deeplearning 专栏收录该内容

99 篇文章 10 订阅

订阅专栏

交叉验证可用于机器学习训练模型的性能评价，也可进行参数寻优。
普通的划分数据集的方法：直接将样本数据分为训练和验证数据集。缺点：没有用到交叉的方法，验证数据集对于模型的训练没有任何贡献。
常用的交叉验证的方法：
1. k-flod cv：
  1. 样本数据分为k组，每次将一组作为验证数据集，其余的k-1组作为训练数据集。则得到k个训练模型，将k个模型的验证准确率的均值作为模型的性能指标
  2. 优点：所有样本都会被用于模型训练，评价结果可信。
2. leave-one-out cv:设原始数据集中有n个样本，每次选择一个样本作为验证数据集，其余n-1个样本作为训练数据集，则会有n个训练模型，将n个训练模型的验证准确率平均值为模型的性能指标。
  1. 优点：同上
  2. 缺点：需要训练的模型较多，且训练数据集较大，计算成本高
为进一步提高模型在预测未知数据的性能，需要对不同的参数设置进行调优和比较，该过程称为模型选择。针对某一特定问题，调整参数以寻求最优超参数的过程。
根据偏差和方差判断模型训练情况：
1. 偏差描述的是预测值和真实值之间的差距
2. 方差描述的是预测值的变化范围，离散程度，方差越大，预测结果数据的分布越分散。
3. 高偏差就是欠拟合，高方差就是过拟合。因为偏差是指我们忽略了多少数据，方差是指模型对数据的依赖程度
4. 高方差：模型根据训练数据集显著变化
5. 验证集可以防止过拟合。
设置预测试评估模型，并在真正测试之前进行改进，这种预测试称为验证集。
评价数据拟合程度的好坏，使用代价函数J=aJtrain(训练集误差)+bJcv（交叉验证集误差）
正则化项：
1. 一般是模型复杂度的单调递增函数，模型越复杂，正则化项值越大，比如正则化项可以是模型参数向量的范数。
2. 从贝叶斯估计的角度来看，正则化项对应于模型的先验概率
3. L1、L2正则化可以理解为模型导入了先验分布，L1正则化引入了拉普拉斯分布，L2正则化引入了高斯分布。
  1. 拉普拉斯分布在0值附近突出，而高斯分布在0值附近分布平缓，两边分布稀疏。对应地（实际是反对应，因为训练过程是要最小化损失），L1正则倾向于稀疏模型，L2正则对权值高的参数惩罚重。
4. 正则化项对应后验概率估计中的先验信息，损失函数对应似然函数，两者乘积得到贝叶斯最大后验概率。
5. 对贝叶斯后验概率取对数可转化为损失函数+正则化项。
6. 最大似然：所有样本概率相乘最大化
根据数据集选择训练方法：
1. 当给定的数据充足，将数据切分为训练集（训练模型），验证集（模型选择），测试集（模型评估）。选择验证集有最小预测误差的模型
2. 当数据集不充足时，采用交叉验证（重复的利用数据）