基于PySpark的网络服务异常检测系统阶段总结(一)

最新推荐文章于 2022-05-11 10:14:35 发布

harvardfy

最新推荐文章于 2022-05-11 10:14:35 发布

阅读量330

点赞数

本文链接：https://blog.csdn.net/weixin_44120629/article/details/106417526

版权

本文总结了博主近几个月对网络服务异常检测的研究，利用Pyspark、SparkSQL、Sklearn等技术实现了一个基于Spark的检测系统。文章讨论了传统方法如APDEX的局限性，并指出在网络服务异常样本极不平衡的情况下，采用单分类算法如KMeans和随机森林进行分析。系统重构采用了Django Restframework、Celery和Spark进行数据处理。

摘要由CSDN通过智能技术生成

又有快半年没更新博客了，自我总结原因，一个字：懒。现在对这半年所做的研究进行一个阶段性的总结，近几个月博主主要对网络服务异常检测相关算法进行了研究，并设计实现了基于Spark的网络服务异常检测系统，整个系统采用前后端分离的模式，所用技术：Pyspark+SparkSQL+Sklearn+Spark_Sklearn+Django+Mysql+Redis+AngularJS

一、网络服务异常检测算法研究

　　近年来，网络服务性能及安全引发的问题频频发生，主要原因是大量个人用户安全意识薄弱，黑客很容易利用个人用户的网络设备作为攻击的源头，进而通过网络进行大规模攻击。2016年10月22日，号称史上最严重的DDoS攻击，美国热门网站大都出现了瘫痪的情况，据用户反馈，Twitter、Spotify、Netflix、Github、Airbnb、Visa、CNN等上百家网站都无法正常访问，黑客们正是利用路由器、网络电视、智能冰箱、数码摄影机等家用设备来组建一种“僵尸网络”，利用DDoS攻击使网络服务异常，从而造成网络瘫痪。当网络服务出现性能和安全方面的问题时，往往会产生网络服务异常，而当下的网络攻击方式较为隐蔽，一般发生网络攻击时不易察觉，如果能做到提早预测网络服务异常，及时发现问题，那么就可以避免由网络性能和网络安全带来的一系列问题。

　　网络服务是指在网络上运行的面向服务的软件模块，在电子商务、电子政务等方面有广泛的应用，如网上订票、网上选房、查看定座情况等，使得用户可以在不同的地方通过不同的终端设备访问业务应用上的数据。当前的大型互联网公司往往拥有数万个网络服务