摘要
不平衡分类是当今机器学习中的研究热点与难点。为提高不平衡数据的分类效果,提出MetaCost与重采样结合的不平衡分类算法——RS-MetaCost。首先在MetaCost划分子集前对不平衡数据集进行重采样,即过采样少数类或欠采样多数类,以降低或消除数据不平衡程度;其次在预测概率阶段,利用m-estimation提高少数类预测概率。采用6组模拟数据集与10组实例数据集,将RS-MetaCost与经典算法进行比较实验。结果表明,在大多数数据集上,RS-MetaCost在保证整体分类精度很高的前提下,还能提高少数类的分类精度,且过采样下的RS-MetaCost优于欠采样下的RS-MetaCost。
0 引言
在互联网技术与人工智能技术快速发展的时代背景下,数据分类是机器学习、数据挖掘等领域的重要任务之一。传统的分类算法例如神经网络、逻辑回归、支持向量机、决策树等[</