自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 五、集成学习——基本的分类模型

2.2 使用sklearn创建完整的分类项目2.2.1 收集数据集并选择合适的特征:IRIS鸢尾花数据集from sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.targetfeature = iris.feature_namesdata = pd.DataFrame(X,columns=feature)data['target'] = ydata.head()各个特征的相关解释:se

2021-03-24 21:08:02 866

原创 四、集成学习——回归模型的评估及超参数调优

2.1.5 对模型超参数进行调优(调参)在刚刚的讨论中,我们似乎对模型的优化都是对模型算法本身的改进,比如:岭回归对线性回归的优化在于在线性回归的损失函数中加入L2正则化项从而牺牲无偏性降低方差。但是,大家是否想过这样的问题:在L2正则化中参数λ\lambdaλ应该选择多少?是0.01、0.1、还是1?到目前为止,我们只能凭经验或者瞎猜,能不能找到一种方法找到最优的参数λ\lambdaλ?事实上,找到最佳参数的问题本质上属于最优化的内容,因为从一个参数集合中找到最佳的值本身就是最优化的任务之一,我们脑海中

2021-03-24 19:13:10 238

原创 三、集成学习——偏差与方差理论

2.1.4 优化基础模型在基本的回归模型的回归问题的基本算法中,我们使用数据集去估计模型的参数,如线性回归模型中的参数w,那么这个数据集我们称为训练数据集,简称训练集。我们在回归问题中使用训练集估计模型的参数的原则一般都是使得我们的损失函数在训练集达到最小值,其实在实际问题中我们是可以让损失函数在训练集最小化为0,如:在线性回归中,我加入非常多的高次项,使得我们模型在训练集的每一个数据点都恰好位于曲线上,那这时候模型在训练集的损失值也就是误差为0。既然能做到这件事,是不是代表我们的建模完事大吉呢?换句

2021-03-19 11:10:02 296

原创 二、集成学习——基本的回归模型

2. 使用sklearn构建完整的机器学习项目流程一般来说,一个完整的机器学习项目分为以下步骤:明确项目任务:回归/分类收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并进行训练以优化模型。评估模型的性能并调参。2.1 使用sklearn建立完整的回归项目2.1.1 收集数据集并选择合适的特征在数据集上我们使用我们比较熟悉的Boston房价数据集,原因是:第一个,我们通过这些简单的数据集快速让我们上手sklearn,以及掌握sklearn的相关操作。第二个,我们

2021-03-17 16:01:56 1795

原创 一、集成学习——机器学习的三大主要任务

1.导论什么是机器学习?机器学习的一个重要的目标就是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。数据通常由一组向量组成,这组向量中的每个向量都是一个样本,我们用 ???????? 来表示一个样本,其中 ????=1,2,3,…,???? ,共N个样本,每个样本 ????????=(????????1,????????2,…,????????????,????????) 共p+1个维度,前p个维度的每个维度我们称为一个特征,最后一个维度 ???????? 我们称为因变量(响应变量)。特征

2021-03-15 15:03:46 286

原创 五、异常检测——高维数据异常检测

1. 引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子空间方法。集成是子空间思想中常用的方法之一,可以有效提高数据挖掘算法精度。集成方法将多个算法或多个基检测器的输出结合起

2021-01-24 17:22:25 551

原创 四、异常监测——基于相似度的方法

1.概述异常通常是一个主观的判断,什么样的数据被认为是“异常”的,需要结合业务背景和环境来具体分析确定。 实际上,数据通常嵌入在大量的噪声中,而我们所说的“异常值”通常指具有特定业务意义的那一类特殊的异常值。噪声可以视作特性较弱的异常值,没有被分析的价值。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的离群程度分数值,同时也更具有可解释性。在普通的数据处理中,我们常常需要保留正常数据,而对噪声和异常值的特性则基本忽略。但在异常检测中,我们弱化了“噪声”和“正常数据”之间的区别,专

2021-01-21 19:40:55 180

原创 三、异常检测——线性相关方法

1. 引言真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。   一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是 线性回归,后者一个典型的例子是 主成分分析。本文将会用这两种典型的线性相关分析方法进行异常检测。需要明确的是,这里有两个重要的假设:假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。

2021-01-18 18:49:38 430

原创 二、异常检测——基于统计学的方法

基于统计学的异常检测方法1. 概述2. 参数方法2.1 基于正态分布的一元异常点检测2.2 多元异常点检测2.2.1 特征之间相互独立,且符合多元高斯分布2.2.2 多个特征相关,且符合多元高斯分布2.2.3 使用混合参数分布3. 非参数方法4. HBOS(Histogram-based Outlier Score)5. COPOD(Copula-Based Outlier Detection)6. 总结7. 练习1. 概述基于统计学的异常检测方法是对数据的正常性做出假定,它是一种基于模型的方法。它们假

2021-01-13 21:19:18 1639

原创 异常检测概述

1. 什么是异常检测异常检测(Outlier Detection),顾名思义,就是识别与正常数据不同,与预期行为差异大的数据。一般情况下,可以把异常检测看成是数据不平衡下的分类问题。1.1 异常的类别**点异常:**指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;**上下文异常:**又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降,在特定场景中的快速信用卡交易;**群体异常:**指的是在群体集合中的个体

2021-01-12 09:31:11 930

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除