- 参考书目:于化龙.类别不平衡学习:理论与算法[M].清华大学出版社,2017.
1.1 引言
-
大数据是一把双刃剑,它在为信息产业快速发展带来机遇的同时,也向现有的信息技术提出了强有力的挑战。
-
两项关键技术:机器学习与数据挖掘
-
机器学习主要为数据挖掘任务提供模型与工具,故其更加偏重于理论;而数据挖掘则更多地关注于不同数据类型的特点及不同领域和层面用户的实际需求,并根据这些需求向机器学习寻求理论帮助,换言之,数据挖掘更加注重实际应用。
-
传统的分类技术通常存在一个致命缺陷,即当其在样本分布不均衡的数据上训练时(如采用99个健康人和1个病人的体检指标创建疾病诊断模型,99990个正常数据包和10个病毒数据包构建网络入侵检测模型等),往往会出现分类面偏倚的现象,从而无法得到理想的分类效果,在严重情况下,模型甚至会完全失效。上述问题在机器学习与数据挖掘领域通常被称为“类别不平衡”(class imbalance)问题,人们也习惯地将用于解决上述问题的算法统称为类别不平衡学习算法。
1.2 基本概念
-
类别不平衡就是指在分类任务中不同类别的训练样本数目差别很大的情况。
-
在类别不平衡问题中,人们习惯将包含样本数较多的类别称为负类(negative class),而将样本数较少的类别称为正类(positive class)。此外,另一个较重要的概念为不平衡比率(imbalanced ratio, IR)ÿ