上一部分介绍了软件的安装与配置,这一部分主要是接下来比较重要的部分。
六、创建测试集与训练集
在这一阶段保留部分数据听起来可能有些奇怪。在我们决定要用哪种算法之前,我们应该去了解整体。这是真的,但是你的大脑是一个惊人的模式检测系统,这意味着它容易过度拟合:如果你查看测试集,你可能会无意中发现一些测试数据中的有趣模式,它引导选择特定类型的机器学习模型。当我们使用测试估计泛化错误时设置,我们的估计将过于乐观,于是我们将启动一个系统,将不会表现和预期一样好,这叫做数据窥探偏差。
创建一个测试集是比较简单的,我们只需要随机选择一些例子,一般是数据集的20%,然后把它们放在一边。
由于测试数据是随机选取,因此每次运行这个程序,测试集数据并不相同。要想使每次测试集产生的均相同,只需给定特定的random_state。这一步主要引用的是Scikit-Learn包,这个包可以将数据集分成许多不同的子集。
设置test_size为0.2,random_state=42。
查看一下测试集的前几行:
这样我们是采用的随机抽样的方法,但当数据集不够大的时候。采用这种方法有采样偏差的风险。
如果专家告诉你,收入中位