离群分析系列——1、离群分析引言

什么是异常值?

异常值是一种和其他观察数据有显著差异,让人怀疑它是由不同的机制产生的数据

异常检测应用举例:

  • 入侵检测系统:在许多计算机系统中,收集关于操作系统调用,网络流量或其他用户动作的不同类型的数据。 由于恶意活动,此数据可能会显示异常行为。 对此类活动的识别称为入侵检测。
  • 信用卡欺诈:未授权使用的信用卡消费(如盗刷信用卡)会存在很多异常行为(如非常用地消费、大额消费)
  • 传感网络
  • 医疗诊断:医疗设备记录下数据,数据中不寻常的模式常常意味着疾病
  • 执法:异常值检测在执法中有许多应用,特别是在只有通过一个实体的多次操作才能在一段时间内发现异常模式的情况下。确定金融交易或保险索赔中的欺诈行为,通常需要在犯罪实体的行为生成的数据中识别出异常模式
  • 地球科学:通过卫星或遥感等各种机制收集了大量关于天气模式、气候变化或土地覆盖模式的时空数据。这些数据中的异常提供了关于人类活动或环境趋势的重要洞见,这些可能是潜在原因。

异常检测算法的输出是什么?

  • 离群值:大多数离群值检测算法输出一个分数,量化每个数据点的“离群值”水平。这个分数也可以用来对数据点按其离群趋势进行排序。这是一种非常普遍的输出形式,它保留了特定算法提供的所有信息,但它没有提供应该被视为异常值的少量数据点的简明摘要。
  • 二分类标签(是否是离群值):这通常是通过对离群值设置阈值来实现的。

噪声和异常值的区别是什么?
判断数据是否异常通常是主观的。实际数据中,可能有大量噪声,这些噪声可能不是我们分析师感兴趣的。

1

a图中的点A是异常点(anomalies),b图中的点A是噪声(noise)。

1

离群点包括噪声和异常值,异常值往往是得分比噪声更高的点。

分类方法和它们在异常检测中的无监督应用的同类物

监督模型无监督推广类型
k最近邻knn距离,lof,loci基于实例
线性回归主成分分析明确泛化
朴素贝叶斯期望最大化明确泛化
RocchioMahalanobis method、聚类明确泛化
决策树、随机森林隔离树、隔离森林明确泛化
基于规则FP-Outlier明确泛化
支持向量机一分类支持向量机明确泛化
神经网络Replicator neural networks明确泛化
矩阵分解主成分分析矩阵分解明确泛化
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值