要明确train/validation/test三个集合需要先了解什么是hyperparameter。机器学习中模型的参数有的可以通过训练获得最优的值,而有些无法通过训练获得,只能通过人工设置,这部分需要人工设置的参数就是hyperparameters,比如KNN中的K值,神经网络中的网络层数,结构,SVM中的C值等。
三个集合在训练中的使用途径如下
- 给定train/validation两个集合,调整模型的参数(包括超参和非超参),使得validation集合上最优
数据量不大时,在这一步中可以采取cross-validation - 第一步中给出的模型在test集合上评估,得到模型分数