【Python实例第7讲】真实数据集的异常检测

本文通过波士顿房价数据集,展示在真实数据中进行异常检测的重要性。通过稳健的协方差估计,揭示数据结构并处理类别的不确定性。示例中,异常点检测在高维数据中变得复杂,使用了支持向量机等工具来辅助识别。
摘要由CSDN通过智能技术生成

机器学习训练营——机器学习爱好者的自由交流空间(入群联系qq:2279055353)

在这个例子里,我们阐述在真实数据集上的稳健协方差估计的必要性。这样的协方差估计,对异常点检测,以及更好地理解数据结构都是有益的。

为了方便数据可视化,我们选择来自波士顿房价数据集的两个变量组成的二维数据集作为示例数据集。在下面的例子里,主要的结果是经验协方差估计,它受观测数据形态的影响很大。但是,我们仍然假设数据服从正态分布。这可能产生有偏的结构估计,但在某种程度上仍然是准确的。

一个例子

这个例子阐述,当数据存在一个类时,稳健的协方差估计如何帮助确定另一个相关的类。这个例子里的很多观测,很难确定属于同一个类,这给经验协方差估计带来了困难。当然,可以利用一些筛选工具,例如,支持向量机、高斯混合模型、单变量异常点检测,确定数据里存在两个类。但是,当维数大于2时,这些工具很难奏效。

代码详解

首先,加载必需的函数库。

print(__doc__)

# Author: Virgile Fritsch <virgile.fritsch@inria.fr>
# License: BSD 3 clause

import numpy as np
from sklearn.covariance import EllipticEnvelope
from sklearn.svm import OneClassSVM
import matplotlib.pyplot as plt
import matplotlib.font_manager
from sk
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值