孤立森林算法思想及代码实现

最新推荐文章于 2024-04-28 21:37:12 发布

weixin_43999733

最新推荐文章于 2024-04-28 21:37:12 发布

阅读量6.7k

点赞数 4

分类专栏：机器学习文章标签：机器学习大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43999733/article/details/104355598

版权

本文介绍了孤立森林算法的基本思想，它是一种用于检测异常值的无监督学习模型。算法通过样本的疏密程度判断异常点，利用随机森林构建多棵孤立树。文章详细讲解了算法步骤、计算公式，给出了算法的伪代码，并使用sklearn库展示了Python代码实现。最后，讨论了孤立森林模型的优缺点以及采用子样本的原因。

摘要由CSDN通过智能技术生成

一、算法思想

孤立森林是属于无监督学习范畴中检测异常值的一种模型，他不同于其他通过计算距离和密度来识别样本点是否是孤立点，而是通过样本的疏密程度来判断样本的是否孤立。仅适用于连续数据。

孤立森林采用多重二分法将样本点进行分区，该算法将样本中所有样本进行切分，直到每个样本点或极少样本点被划分在同一区域呢，这样样本越密集的区域，区域中的点被孤立时所需要的切分次数就越多，同理样本是孤立点，则该点被孤立时切分的次数就越低。

二、模型推理

在已经理解孤立森林算法思想后，如何通过数学公式实现孤立森林模型是我们需要解决的问题，接下来从模型步骤和计算公式、算法伪代码、模型python代码三个方面进一步深入了解掌握模型。

2.1 模型步骤及公式

孤立森林是和随机森林的概念类似，孤立森林是由多颗孤立树构成，先使用测试集训练每颗孤立树，然后再计算验证集每个样本的异常分数值（0，1]判断该样本是否异常，分值越接近1样本越孤立，即样本异常可能性越大。

在创建孤立森林之前，先创建一颗孤立树，孤立树的创建步骤如下：

1.从总体中，随机选择样本容量为n的样本，作为训练孤立树的

最低0.47元/天解锁文章

weixin_43999733

关注

4
点赞
踩
50

收藏

觉得还不错? 一键收藏
0
评论
孤立森林算法思想及代码实现

一、算法思想孤立森林是属于无监督学习范畴中检测异常值的一种模型，他不同于其他通过计算距离和密度来识别样本点是否是孤立点，而是通过样本的疏密程度来判断样本的是否孤立。仅适用于连续数据。孤立森林采用多重二分法将样本点进行分区，该算法将样本中所有样本进行切分，直到每个样本点或极少样本点被划分在同一区域呢，这样样本越密集的区域，区域中的点被孤立时所需要的切分次数就越多，同理样本是孤...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。