一. 模型选择
通常我们在机器学习的过程中希望能够通过实验测试来对学习器的泛化误差进行评估,就需要测试集来作为学习结果的依据。那么给了一个数据集D,如何划分训练集和测试集呢?
1. 留出法(hold-out)
直接将数据集D划分为两个互斥集合S和T,即, 然后在S上训练网模型后,用T 来做测试。
2. 交叉验证法(cross validation)
现将数据集D划分为k个大小相似的互斥子集,即.每个子集尽可能保持数据分布的一致性,即从D中通过分层采样得到。然后每次利用k-1个数据集做训练,余下的子集做测试。这样就可以获得k组训练集和测试集,