目录
当数据信息充分时,我们直接分好训练集跟测试集进,再建立模型进行拟合,最后得到的效果也会比较好;当数据不充分时,我们就需要对数据进行扩充,其中重抽样方法可以保留数据的特征,不会破坏数据原始的分布;而生成对抗网络(GAN)是基于噪声合成的数据,不做过多讨论。
一、重抽样
1、概念
通过反复从训练集中抽取样本,然后对每一个样本重新拟合一个感兴趣的模型,来获取关于拟合模型的附加信息。
2、用途
可以获得那些只用原始的训练样本来拟合模型所没有的东西。
3、缺点
计算量大,需要利用同一种统计方法对训练数据的不同子集拟合多次。
4、方法
(1)交叉验证法;
(2)自助法。
二、交叉验证法(CV)
1、验证集方法
(1)原理
将数据随机分配为训练集和测试集,然后用训练集建模,测试集进行检验。
(2)评价指标:均方误差
(3)缺陷
①测试错误率的验证法估计的波动很大;
②验证集错误率可能会高估在整个数据集上拟合模型所得到的测试错误率(因为只有一部分数据被观测,被训练的观测越少,统计方法的表现越不好)。