正反例极不平衡的数据集的采样

本文探讨了类不均衡问题在数据挖掘项目中的挑战,指出在某些算法中,如决策树和SVM,类不均衡可能导致模型失效或结果偏颇。为了克服这个问题,提出了通过分层抽样来调整正负样本比例,以确保正类模式能被有效捕捉。文中还分享了一种特定策略,即针对决策树,通过删除反例中某些精确但概率极小的分支,然后再构建决策树,以提高欺诈检测的准确性。
摘要由CSDN通过智能技术生成

类不均衡问题是“分类型数据挖掘”(我就直接按照目标变量来定义概念了哈)实际项目中很常见的一类问题,毕竟生活中像UCI上那种正负类样本点数据基本差不-多的情况是很少见的,至少在我所做过的两个项目中,所遇到的数据情况都是应该属于类极不均衡问题(正负类样本点的比例大致在1:100左右,在这里我将少类样本-定义为正类点,多类样本定义为负类点。由于项目原因,就不介绍具体背景了,反正无非就是在客户中发现有具有潜在风险的客户之类的)。
    在有些算法中(主要是基于信息熵或GINI系数进行分类的算法),这种类极不均衡问题会带来算法失效的结果,例如:在使用DT算法进行分类的时候,类不均衡问题-会使得树无法继续生长,当然,通过调整阈值或设定树的最小层数也可以强制使得树继续生长,但对于大量的数据而言,这种做法多少有些拍脑袋的嫌疑。
    在有些算法中(主要是基于样本点距分划面距离的算法

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值