异常检测与(多元)高斯分布

高斯分布(正态分布)及其一些特征

 

参数估计问题:给出数据集,能够估算出两个参数的值 

出错概率:

x代表特征

 

异常检测算法

1.选择特征项,指出反常的样本

2.给出训练集及其样本数据,然后进行参数拟合 

 

 

x代表一个特征

设定一个值,当计算出的概率Px大于该值时就算是正常地,小于时就是不正常的 

 

 

异常检测模型训练

1.把样本分配给无标签训练集,交叉验证集合测试集

 

 2.给定训练集预测x的值

 

 

异常检测算法和监督学习算法的区别与选择

1.当正样本y=0很少而负样本y=1很多时(如飞机引擎异常),可以选择异常检测算法。当正样本和负样本都很多时选择监督学习算法(如垃圾邮件分类),因为有足够数量的正样本来进行训练。

2.当样本特征经常变化且数量较少时,选择异常检测算法。当正样本比较多且样本特征容易保留时选择监督学习算法。 

 

 

 

数据集的转化

 

 

 误差分析过程

 

异常检测算法选择特征变量的一些思考

 

通过误差分析方法来不抓各种异常的可能并帮助选择适当特征来构建异常检测算法 

 

异常检测算法的一些延伸

多元高斯分布图像

数值小的维度形状要窄一些 ,数值大的维度要宽一些

 

 

 

 

 

 

 大西格玛是协方差矩阵,n*n的矩阵

 

异常检测算法的开发

1.用数据集来拟合模型 

2.用新样本x计算p(x)并判断该p(x)是否为异常样本

 

 

 

原始高斯模型和多元高斯模型的区别和选择(x为特征)

1.原始高斯模型使用较多,计算成本低 ,计算样本数据量较大时模型运行效果好;多元高斯模型对于不同特征之间的关系表示效果较好,但由于存在协方差矩阵,所以能适应的样本n的值较小,且要保证样本数量大于特征数量(m>>n)

2.在多元高斯模型中,如果矩阵是不可逆的有两种情形:

1)样本数量小于特征数量

2)有重复冗余的特征

 

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值