机器学习-训练集、验证集、测试集（附：分割方法+交叉验证）【随记】

听忆.

于 2024-08-27 17:38:33 发布

阅读量1.4k

点赞数 12

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_64296810/article/details/141608677

版权

训练集、验证集、测试集（附：分割方法+交叉验证）

🎈边走、边悟🎈迟早会好

在机器学习和深度学习的模型训练过程中，数据集的划分至关重要。训练集、验证集和测试集分别用于不同的目的，以确保模型的性能和泛化能力。下面详细介绍这些概念以及常见的数据分割方法和交叉验证技术。

为了合理评估模型的性能，通常会将数据集分为训练集、验证集和测试集。这种分割可以根据数据量和具体应用场景进行调整。

常见的分割比例:
- 70-15-15 分割: 常见于大数据集，即 70% 的数据用于训练，15% 的数据用于验证，15% 的数据用于测试。
- 80-10-10 分割: 另一种常见比例，适合中等大小的数据集。
- 90-10 分割: 在数据量非常小的情况下，可能只分割成训练集（90%）和测试集（10%），通过交叉验证来替代验证集。

交叉验证是一种评估模型性能的技术，特别适用于数据量有限的情况。它通过多次训练和验证，来更全面地评估模型的泛化能力。

k 折交叉验证（k-Fold Cross-Validation）:
- 定义: 将数据集分为 k 个子集（folds），然后进行 k 次训练和验证，每次用 k-1 个子集作为训练集，剩下的 1 个子集作为验证集。最终的模型性能取 k 次验证的平均值。
- 常见的 k 值: k 值通常为 5 或 10，但也可以根据数据量调整。
- 优点: 每个数据点都有机会作为训练集和验证集的一部分，评估结果更加稳定和可靠。
- 缺点: 计算成本较高，尤其是当数据量大且模型复杂时。
留一法交叉验证（Leave-One-Out Cross-Validation, LOOCV）:
- 定义: 每次只留下一个样本作为验证集，剩余的样本作为训练集，重复 n 次（n 为样本数量），最后取平均值。
- 优点: 最充分利用数据，适用于小数据集。
- 缺点: 计算成本极高，训练次数与样本数相同。
分层交叉验证（Stratified Cross-Validation）:
- 定义: 在 k 折交叉验证中，保证每个子集中各类样本的比例与原始数据集一致，常用于类别不平衡的数据集。
- 优点: 能更准确地反映数据集中不同类别的表现，避免因类间不平衡导致的误差。