另外ks在kaggle上被用于训练集和测试集的分布差异性的量化比较,如果分布差异非常大,很显然这样的特征会导致特征偏移的问题,如果这个特征恰好又特别重要,将大大降低模型的泛化能力,然而在实际应用中,我发现我们在做交叉验证的时候也会发生这种情况,比如用80%的训练集数据作为新训练集,20%的数据作为开发集,也会发生特征迁移的问题,这个时候我们其实也可以事先用ks来检验,我称之为特征分布不稳定问题,比如:
ks具体解释和应用
ks检验训练集和测试集的分布差异性
最新推荐文章于 2023-12-27 10:57:39 发布