还在用交叉验证?试试Kaggle大牛们常用的方法——对抗验证

本文探讨了在样本分布变化时,交叉验证的局限性,并介绍了对抗验证的概念,以及在分布变化时优于交叉验证的三种方法:人工划分验证集、选择最相似样本作为验证集和有权重的交叉验证。通过实例分析,展示了这些方法在评估模型效果方面的优势。
摘要由CSDN通过智能技术生成

交叉验证(Cross Validation)是常用的一种用来评估模型效果的方法。

当样本分布发生变化时,交叉验证无法准确评估模型在测试集上的效果,这导致模型在测试集上的效果远低于训练集。

通过本文,你将通过一个kaggle的比赛实例了解到,样本分布变化如何影响建模,如何通过对抗验证辨别样本的分布变化,以及有哪些应对方法。

本篇文章完整代码:
https://github.com/Qiuyan918/Adversarial_Validation_Case_Study/blob/master/Adversarial_Validation.ipynb

目录

  • 什么是样本分布变化
  • 为什么样本分布变化的时候,交叉验证不适用?
  • 什么是对抗验证?
  • 分布变化时,有哪些优于交叉验证的方法?
  • Kaggle比赛实例(lightgbm模型;Python)

1 什么是「样本分布变化」?

在真实的业务场景中,我们经常会遇到「样本分布变化」的问题。

主要体现在训练集和测试集的分布存在的差异。比如,在化妆品或者医美市场,男性的比例越来越多。基于过去的数据构建的模型,渐渐不适用于现在。

2 为什么「样本分布变化」的时候,交叉验证不适用?

当我们要做一个模型

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值