- 交叉验证可用于机器学习训练模型的性能评价,也可进行参数寻优。
- 普通的划分数据集的方法:直接将样本数据分为训练和验证数据集。缺点:没有用到交叉的方法,验证数据集对于模型的训练没有任何贡献。
- 常用的交叉验证的方法:
- k-flod cv:
- 样本数据分为k组,每次将一组作为验证数据集,其余的k-1组作为训练数据集。则得到k个训练模型,将k个模型的验证准确率的均值作为模型的性能指标
- 优点:所有样本都会被用于模型训练,评价结果可信。
- leave-one-out cv:设原始数据集中有n个样本,每次选择一个样本作为验证数据集,其余n-1个样本作为训练数据集,则会有n个训练模型,将n个训练模型的验证准确率平均值为模型的性能指标。
- 优点:同上
- 缺点:需要训练的模型较多,且训练数据集较大,计算成本高
- k-flod cv:
- 为进一步提高模型在预测未知数据的性能,需要对不同的参数设置进行调优和比较,该过程称为模型选择。针对某一特定问题,调整参数以寻求最优超参数的过程。
- 根据偏差和方差判断模型训练情况:
- 偏差描述的是预测值和真实值之间的差距
- 方差描述的是预测值的变化范围,离散程度,方差越大,预测结果数据的分布越分散。
- 高偏差就是欠拟合,高方差就是过拟合。因为偏差是指我们忽略了多少数据,方差是指模型对数据的依赖程度
- 高方差:模型根据训练数据集显著变化
- 验证集可以防止过拟合。
- 设置预测试评估模型,并在真正测试之前进行改进,这种预测试称为验证集。
- 评价数据拟合程度的好坏,使用代价函数J=aJtrain(训练集误差)+bJcv(交叉验证集误差)
- 正则化项:
- 一般是模型复杂度的单调递增函数,模型越复杂,正则化项值越大,比如正则化项可以是模型参数向量的范数。
- 从贝叶斯估计的角度来看,正则化项对应于模型的先验概率
- L1、L2正则化可以理解为模型导入了先验分布,L1正则化引入了拉普拉斯分布,L2正则化引入了高斯分布。
- 拉普拉斯分布在0值附近突出,而高斯分布在0值附近分布平缓,两边分布稀疏。对应地(实际是反对应,因为训练过程是要最小化损失),L1正则倾向于稀疏模型,L2正则对权值高的参数惩罚重。
- 正则化项对应后验概率估计中的先验信息,损失函数对应似然函数,两者乘积得到贝叶斯最大后验概率。
- 对贝叶斯后验概率取对数可转化为损失函数+正则化项。
- 最大似然:所有样本概率相乘最大化
- 根据数据集选择训练方法:
- 当给定的数据充足,将数据切分为训练集(训练模型),验证集(模型选择),测试集(模型评估)。选择验证集有最小预测误差的模型
- 当数据集不充足时,采用交叉验证(重复的利用数据)
交叉验证(cv)学习笔记
最新推荐文章于 2024-06-16 15:15:00 发布