鸢尾花数据集
类别标签的ground truth与gold standard
- ground truth:可翻译为地面实况等。在机器学习领域一般用于表示真实值、标准答案等,表示通过直接观察收集到的真是结果
- gold standard:可翻译为金标准。机器学习领域,更倾向于使用“ground truth”。如果用gold standard这个词,则表示可以很好地代表ground truth
数据集与有监督学习
有监督学习中数据通常分为训练集、测试集两部分
1、训练集(training set)用来训练模型,即被用来学习到的系统的参数值
2、测试集(testing set)用于最终报告模型的评价结果,因此在训练阶段测试集中的样本是不可见的。
有时对训练集做进一步划分为训练集和验证集(validation set)。验证集与测试集类似,也是用于评估模型的性能。区别是验证集主要用于模型选择和调整超参数,因而一般不用于报告最终结果
训练集、测试集的拆分
- 可以使用sklearn进行训练集测试集的拆分
一、留出法数据拆分步骤:
1、将数据随机分为两组、一组作为训练集、一组作为测试集
2、利用训练集训