2021-01-14基于统计学的方法

最新推荐文章于 2023-07-10 09:30:13 发布

凭轩听雨199407

最新推荐文章于 2023-07-10 09:30:13 发布

阅读量427

点赞数

分类专栏：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46870583/article/details/112644881

版权

学习专栏收录该内容

45 篇文章 0 订阅

订阅专栏

本文介绍了异常检测的统计学方法，包括基于正态分布的一元异常点检测、多元异常点检测和非参数方法如HBOS。参数方法假设数据遵循特定参数分布，如正态分布，并通过计算概率阈值来识别异常点。非参数方法如HBOS不依赖于预先设定的分布，而是基于数据构建直方图来估计异常分数。HBOS在全局异常检测中表现出色，但可能无法检测局部异常。

摘要由CSDN通过智能技术生成

异常检测

参数方法
非参数方法
HBOS

Task2：基于统计学的方法
根据如何指定和学习模型，异常检测的统计学方法可以划分为两个主要类型：参数方法和非参数方法。

参数方法：假定正常的数据对象被一个以 $\Theta$ 为参数的参数分布产生。
非参数方法：不假定先验统计模型，试图从输入数据确定模型。

参数方法

基于正态分布的一元异常点检测

一元数据：仅涉及一个属性或变量的数据。
正态分布：数据集{x⁽¹⁾, x⁽²⁾, x⁽³⁾,…, x^(m)}服从正态分布，即x⁽ⁱ⁾~N(μ, σ²)。根本样本求出参数μ、σ。
根据概率密度函数计算数据点服从该分布的概率。正态分布的概率密度函数为
若计算出来的概率低于阈值，则认为该数据点是异常点。（阈值：在验证集上使得评估指标值最大的阈值）
EG: 3σ法则检验异常点，异常点被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的数据。代码如下：

supplement：numpy.random.randn(d0,d1,…,dn)
randn函数返回一个或一组样本，具有标准正态分布。
dn表格每个维度
返回值为指定维度的array
numpy.random.randn(50000)#生成50000个点

多元异常点检测

多元数据：涉及两个或多个属性/变量的数据。
检测的思想：把多元异常点检测转换为一元异常点检测。
各个维度的特征之间相互独立的情况下，将每一维度的概率密度函数连乘：
各个维度的特征之间有相关性，要用多元高斯分布：

使用混合参数分布

许多情况下：假定数据正态分布。
数据复杂时：假定数据是被混合参数分布产生。

非参数方法

例：使用直方图检测异常点。
直⽅图是⼀种频繁使⽤的⾮参数统计模型，可以⽤来检测异常点。
步骤如下：

step1：构造直方图。
step2：检测异常点。例如1：如果某个点落入直方图的一个箱子中，则该点被认为正常，否则异常。例如2：用直方图赋予每个对象一个异常点得分。
shortcoming：很难选择合适的箱尺寸。

HBOS

HBOS:histogram-based outlier score

基本假设：数据集每个维度相互独立。
对每个维度进行区间（bin）划分，区间密度越高，异常评分越低。
算法流程：
- 1.为每个数据维度做出数据直方图。
- 2.每个维度都计算了一个独立的直方图，其中每个箱子的高度表示密度的估计。（对直方图做归一化处理）
HBOS advantage：全局异常检测表现良好，比标准算法快
HBOS disadvantage：不能检测局部异常值。

凭轩听雨199407

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
2021-01-14基于统计学的方法

异常检测Task2：基于统计学的方法根据如何指定和学习模型，异常检测的统计学方法可以划分为两个主要类型：参数方法和非参数方法。
复制链接

扫一扫

专栏目录

凭轩听雨199407 CSDN认证博客专家 CSDN认证企业博客

码龄4年

89: 原创

12万+: 周排名

2万+: 总排名

8万+: 访问

: 等级

1189: 积分

472: 粉丝

175: 获赞

64: 评论

410: 收藏

私信

关注

热门文章

分类专栏

经验 23篇
学习 45篇

最新评论

【debug】‘numpy.ndarray‘ object has no attribute ‘plot‘
凭轩听雨199407: 单步调试看看，可能某个变量每次的值不一样
【debug】‘numpy.ndarray‘ object has no attribute ‘plot‘
Bryce想一出是一出: 解决了我的问题，感谢博主。很奇怪的是，同一段绘图代码，有的时候不报错，有的时候就会报这个错误。有哪位大佬知道原因吗？
求职准备知识点
崇山峻岭的小狗: 谢谢博主，我是使用了dtw算法，将季节划分成四个窗口，提取符合特征的数据
求职准备知识点
凭轩听雨199407: 你好，我没有用过PAA，我从网上查到的信息大概回复一下哦， PAA过程简单来说是把一个共有n个点的时间序列转为w个片段。是序列平行维度的降维。这么来看，可能是可以把w当成你想分的段数4. 不知道你想把数据按照季节划分为4个窗口这个背后的意义是什么？是要降维吗，还是再去做什么处理和分析呢？因为听起来如果有时间戳的话，只是为了把时序数据分为4个季节的分段，好像按时间戳分就可以了。可能这部分有什么背景情况的限制我不了解的，你可以再详细描述一下。
求职准备知识点
崇山峻岭的小狗: 你好博主我想问问我想把数据按照季节划分成四个窗口可以用PAA算法吗？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。