DataWhale-异常检测-Task01

最新推荐文章于 2023-02-03 23:14:13 发布

新西兰孙一峰

最新推荐文章于 2023-02-03 23:14:13 发布

阅读量151

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43834407/article/details/112551927

版权

异常检测-Task01

异常检测特点

异常数据样本少。
通常来讲，正常的数据占据总体数据量的大多数，而异常数据的占比极小。（例如99% 与 1%的占比）

任务分类

1）有监督：训练集的正例和反例均有标签
2）⽆监督：训练集⽆标签
3）半监督：在训练集中只有单⼀类别（正常实例）的实例，没有异常实例参与训练

常见场景

网络异常检测
欺诈检测
时间序列异常检测
⽇志异常检测

传统方法

1）基于统计学
假设数据服从某个分布，比如高斯分布，然后根据样本，运用极大似然估计求出分布的参数，然后把低概率区域的样本认为是异常值
2）PCA主成分分析方法
3）基于相似度的方法
4）基于cluster簇的方法，如DBSCAN聚类算法。
5）knn聚类算法
6）基于密度的LOF
以上方法对超参数的选择非常敏感，但是比较简单

集成方法

1）feature bagging
https://www.researchgate.net/publication/221653185_Feature_bagging_for_outlier_detection
2）孤立森林

机器学习

如文章开篇所说，异常检测数据分布往往是不平衡的，这时候需要类似于F1 score去评估分类模型，accuracy不能很好的作为评价指标。数据增强扩充样本也能提高模型的性能。

新西兰孙一峰

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

新西兰孙一峰 CSDN认证博客专家 CSDN认证企业博客

码龄6年

14: 原创

78万+: 周排名

33万+: 总排名

9248: 访问

: 等级

210: 积分

4: 粉丝

7: 获赞

3: 评论

7: 收藏

私信

关注

热门文章

最新评论

异常检测 Task3
普通网友: 总结的不错。可以可以。很强。继续加油~
异常检测 Task3
不正经的kimol君: 在最美的年华，做最好的自己，加油！
异常检测 Task3
LaoYuanPython: 抢到沙发，原创不易，点赞支持！伙计，加油! 最后拉个票，本人正参与博客之星评选，1月24日前每天都可投票，敬请支持！谢谢！投票链接：[code=python] https://bss.csdn.net/m/topic/blog_star2020/detail?username=laoyuanpython [/code] 或到老猿博文首页内的置顶博文跳转！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。