2021-01-24高维异常

最新推荐文章于 2022-07-10 17:47:33 发布

凭轩听雨199407

最新推荐文章于 2022-07-10 17:47:33 发布

阅读量168

点赞数

分类专栏：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46870583/article/details/113099436

版权

学习专栏收录该内容

45 篇文章 0 订阅

订阅专栏

异常检测

feature bagging
- 选择基检测器
- 分数标准化和组合方法
isolation forests
总结
作业

TASK05高维异常

维度诅咒/维度灾难/维度惩罚：
随着维度的增加，数据空间的体积会以指数级别增长，使数据变得稀疏。
现象：数据稀疏/距离集中。
高维场景下：常用子空间方法。
识别子空间的几类常用方法：

基于稀有性。
无偏（特征袋/旋转袋/旋转子空间采样）
基于聚合的方法

集成方法是基于子空间方法的常用方法之一。集成方法两种常见方法如下：

feature bagging

feature bagging即特征组合。是集成方法的一种。
bagging是bootstrap aggregating的缩写。
feature bagging的设计步骤为：

选择基检测器

基本检测器可以彼此完全不同，或不同的参数设置，或使用不同采样的子数据集。
通用算法为：

给定数据集 $S$ ，x_i属于X^d,y_i属于Y={C，NC}。C为异常值，NC为正常值。d为向量X的维度。
归一化数据集S
t=1,2,3… $T$
1. 从一个在d/2到d-1之间的均匀分布中随机选择特征子集 $N$ _t的大小
1. 随机选择不放回， $N$ _t特征，来创建一个特征子集 $F$ _t
1. 通过应用特征子集 $F$ _t来应用异常检测算法子集 $O$ _t
1. 异常检测算法子集 $O$ _t的输出是异常评分向量 $A S$ _t
组合这些异常得分向量的正常得分向量，并且输出最终异常得分向量AS_FINAL

分数标准化和组合方法

不同检测器可能会在不同的尺度上产生分数。
分数标准化：需要将来自各种检测器的分数转换成可以有意义的组合的归一化值。
组合方法：选择一个组合函数将不同基本检测器的得分进行组合，最常见的选择包括平均和最大化组合函数。
两个feature bagging两个不同的组合分数方法：

广度优先
累积求和

方差：是指算法输出结果与算法输出期望之间的误差，描述模型的离散程度，数据波动性。

偏差：是指预测值与真实值之间的差距。即使在离群点检测问题中没有可用的基本真值

isolation forests

孤立森林是机器学习中少见的专门针对异常检测设计的算法之一。
孤立森林属于非参数和无监督的算法，既不需要定义数学模型也不需要训练数据有标签。
孤立森林认为这些很快被孤立的点就是异常点。
孤立森林由t棵孤立的数组成，每棵树都是一个随机二叉树，也就是说对于树中的每个节点，要么有两个孩子节点，要么一个孩子节点都没有。树的构造方法和随机森林(random forests)中树的构造方法有些类似。
流程：

从训练数据中随机选择一个样本子集，放入树的根节点；
随机指定一个属性，随机产生一个切割点V，即属性A的最大值和最小值之间的某个数；
根据属性A对每个样本分类，把A小于V的样本放在当前节点的左孩子中，大于等于V的样本放在右孩子中，这样就形成了2个子空间；
在孩子节点中递归步骤2和3，不断地构造左孩子和右孩子，直到孩子节点中只有一个数据，或树的高度达到了限定高度。

孤立森林检测异常的假设是：异常点一般都是非常稀有的，在树中会很快被划分到叶子节点，因此可以用叶子节点到根节点的路径长度来判断一条记录是否是异常的。

总结

1.feature bagging可以降低方差

2.孤立森林的优势在于：
计算成本相比基于距离或基于密度的算法更小。
具有线性的时间复杂度。
在处理大数据集上有优势。

作业

1.使用PyOD库生成toy example并调用feature bagging
在这里插入图片描述

homework2
使用PyOD库生成toy example并调用Isolation Forests

凭轩听雨199407

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

凭轩听雨199407 CSDN认证博客专家 CSDN认证企业博客

码龄4年

89: 原创

12万+: 周排名

2万+: 总排名

8万+: 访问

: 等级

1191: 积分

474: 粉丝

177: 获赞

64: 评论

410: 收藏

私信

关注

热门文章

分类专栏

经验 23篇
学习 45篇

最新评论

【debug】‘numpy.ndarray‘ object has no attribute ‘plot‘
凭轩听雨199407: 单步调试看看，可能某个变量每次的值不一样
【debug】‘numpy.ndarray‘ object has no attribute ‘plot‘
Bryce想一出是一出: 解决了我的问题，感谢博主。很奇怪的是，同一段绘图代码，有的时候不报错，有的时候就会报这个错误。有哪位大佬知道原因吗？
求职准备知识点
崇山峻岭的小狗: 谢谢博主，我是使用了dtw算法，将季节划分成四个窗口，提取符合特征的数据
求职准备知识点
凭轩听雨199407: 你好，我没有用过PAA，我从网上查到的信息大概回复一下哦， PAA过程简单来说是把一个共有n个点的时间序列转为w个片段。是序列平行维度的降维。这么来看，可能是可以把w当成你想分的段数4. 不知道你想把数据按照季节划分为4个窗口这个背后的意义是什么？是要降维吗，还是再去做什么处理和分析呢？因为听起来如果有时间戳的话，只是为了把时序数据分为4个季节的分段，好像按时间戳分就可以了。可能这部分有什么背景情况的限制我不了解的，你可以再详细描述一下。
求职准备知识点
崇山峻岭的小狗: 你好博主我想问问我想把数据按照季节划分成四个窗口可以用PAA算法吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。