类别不平衡学习(理论与算法)————第一章

类别不平衡学习针对样本分布不均衡的问题,常出现在大数据分析中。本文介绍基本概念、常用技术,如样本采样(SMOTE)、代价敏感学习,以及它们在入侵检测、欺诈检测等领域的应用。
摘要由CSDN通过智能技术生成
  • 参考书目:于化龙.类别不平衡学习:理论与算法[M].清华大学出版社,2017.

1.1 引言

  • 大数据是一把双刃剑,它在为信息产业快速发展带来机遇的同时,也向现有的信息技术提出了强有力的挑战。

  • 两项关键技术:机器学习与数据挖掘

  • 机器学习主要为数据挖掘任务提供模型与工具,故其更加偏重于理论;而数据挖掘则更多地关注于不同数据类型的特点及不同领域和层面用户的实际需求,并根据这些需求向机器学习寻求理论帮助,换言之,数据挖掘更加注重实际应用。

  • 传统的分类技术通常存在一个致命缺陷,即当其在样本分布不均衡的数据上训练时(如采用99个健康人和1个病人的体检指标创建疾病诊断模型,99990个正常数据包和10个病毒数据包构建网络入侵检测模型等),往往会出现分类面偏倚的现象,从而无法得到理想的分类效果,在严重情况下,模型甚至会完全失效。上述问题在机器学习与数据挖掘领域通常被称为“类别不平衡”(class imbalance)问题,人们也习惯地将用于解决上述问题的算法统称为类别不平衡学习算法。

1.2 基本概念

  • 类别不平衡就是指在分类任务中不同类别的训练样本数目差别很大的情况。

  • 在类别不平衡问题中,人们习惯将包含样本数较多的类别称为负类(negative class),而将样本数较少的类别称为正类(positive class)。此外,另一个较重要的概念为不平衡比率(imbalanced ratio, IR)ÿ

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值