统计学习基础——第五章 重抽样

本文介绍了统计学习中的重抽样技术,包括其概念、用途和缺点,以及交叉验证法的几种类型如验证集、留一交叉验证和k折交叉验证的原理、优缺点及改进。同时,讨论了自助法的作用和原理,强调在数据不充分时如何利用这些方法进行模型评估和数据扩充。
摘要由CSDN通过智能技术生成

 

目录

一、重抽样

1、概念

2、用途

3、缺点

4、方法

二、交叉验证法(CV)

1、验证集方法

(1)原理

(2)评价指标:均方误差

(3)缺陷

2、留一交叉验证法(LOOCV)

(1)原理

(2)优缺点

(3)拟合方法

3、k折交叉验证法(一般k=5或k=10。)

(1)原理

(2)优缺点

(3)改进

4、k折交叉验证的偏差——方差权衡

二、自助法

1、作用

2、原理


     当数据信息充分时,我们直接分好训练集跟测试集进,再建立模型进行拟合,最后得到的效果也会比较好;当数据不充分时,我们就需要对数据进行扩充,其中重抽样方法可以保留数据的特征,不会破坏数据原始的分布;而生成对抗网络(GAN)是基于噪声合成的数据,不做过多讨论。

一、重抽样

1、概念

通过反复从训练集中抽取样本,然后对每一个样本重新拟合一个感兴趣的模型,来获取关于拟合模型的附加信息。

2、用途

可以获得那些只用原始的训练样本来拟合模型所没有的东西。

3、缺点

计算量大,需要利用同一种统计方法对训练数据的不同子集拟合多次。

4、方法

(1)交叉验证法;

(2)自助法。

二、交叉验证法(CV)

1、验证集方法

(1)原理

 

将数据随机分配为训练集和测试集,然后用训练集建模,测试集进行检验。

(2)评价指标:均方误差

(3)缺陷

①测试错误率的验证法估计的波动很大;

②验证集错误率可能会高估在整个数据集上拟合模型所得到的测试错误率(因为只有一部分数据被观测,被训练的观测越少,统计方法的表现越不好)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值