原创作品,出自 “晓风残月xj” 博客,欢迎转载,转载时请务必注明出处(http://blog.csdn.net/xiaofengcanyuexj)。
由于各种原因,可能存在诸多不足,欢迎斧正!
最近需要对欺诈报价进行识别处理,简单的模型就是给定很多不同数据集,需要找出每个spu下可能存在的欺诈数据,比如{20,22,30},其中的欺诈数据可能就是30。其实加以抽象,属于异常检测范围。
异常检测是发现与大部分对象不同的对象,其中这些不同的对象称为离群点。一般异常检测的方法主要有数理统计法、数据挖掘方法。一般在预处理阶段发生的异常检测,更多的是依托数理统计的思想完成的。
一、基于模型
首先判断出数据的分布模型,比如某种分布(高斯分布、泊