数据集D划分成训练集S和测试集T的方法
1. 留出法 (hold - out)
直接将数据集D划分成两个互斥的集合,其中一个集合作为训练集S, 另一个集合作为训练集T
在进行训练集和测试集的划分时,尽可能保持数据划分的一致性,避免因数据划分过程中额外的偏差而对最终的结果产生影响。
- ① 保持样本的类别比例相似 D中1000个样本 500个正例子, 500个反例
- ② 70%作为训练集 则挑 S 350正 350反 T 150正 150反
留出法的结果并不够可靠,使用留出法时,要采用若干次的随机划分, 求结果的平均
留出法的窘境: 令S包含大多数样本,训练出的模型更接近于用数据集D训练的模型, 但T少使得评估不稳定
令T包含大多数样本,被评估的模型与用D训练出来的模型有较大的差别。
常见的做法是 将大约 2/3-2/5 的样本用于训练
2. 交叉验证法
将数据集 D 划分成为 k 个大小相似的互斥子集, 即