论文来自于IJCNN 2018,本身结合有监督和无监督的思路比较直接,作为一个移植性比较好的框架,可以去尝试替换原论文中的一些Component,比如用更快的lightgbm替换xgboost,或者在无监督特征工程上尝试更多的组合。
无监督模型包括基于计算特征相似度,基于密度估计等方法。不同的模型学习到的是不同的数据模式,根据模型的打分去判断样本的异常程度,这里的分数其实体现了无监督模型本身的一个feature engineering的过程。作者针对有label的异常检测数据,使用无监督的方法扩展了原始数据的特征空间,辅助有监督模型探索到更多的特征模式。
Framework
首先由k个无监督模型学习原始数据,得到对各个样本的transformed outlier scores(TOS),将TOS集合作为无监督模型组的特征工程输出,concat原本的特征作为有监督模型的特征输入:
作者实验室了对TOS集合的处理,发现取k个TOS的平均值效果不好,猜测TOS集合未必所有的TOS都是可用的,所以必须要对TOS集合作出筛选。同时考虑特征多样性和最终模型的准确度,作者给出的筛选思路如下:
其中,使用下面公式对准确度和多样性作出平衡:
下面公式为皮尔森系数,用来衡量不同量之间的相关程度。