机器学习算法
文章平均质量分 96
各位观众全体起立
这个作者很懒,什么都没留下…
展开
-
Task5:高维异常检测
Task5:高维异常检测1、引言2、Feature Bagging3、Isolation Forests4、总结5、练习1、引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子原创 2021-01-24 11:51:18 · 115 阅读 · 0 评论 -
Task4:基于相似度的方法
Task4:基于相似度的方法1、概述2、基于距离的度量2.1 基于单元的方法(加快运算)2.2 基于索引的方法3、基于密度的度量3.1 k-距离(k-distance(p)):3.2 k-邻域(k-distance neighborhood):3.3 可达距离(reachability distance):3.4 局部可达密度(local reachability density):3.5 局部异常因子:4、练习1、概述 “异常”通常是一个主观的判断,什么样的数据被认为是“异常”的,需要结合业务背景和原创 2021-01-21 23:47:17 · 115 阅读 · 0 评论 -
Task3:线性模型
Task3:线性模型1、引言2、数据可视化3、线性回归3.1 基于自变量与因变量的线性回归3.1.1 最小二乘法3.1.2 梯度下降法3.2 基于异常检测的线性回归4、主成分分析4.1 原理推导4.2 归一化问题5、回归分析的局限性6、总结7、资料8、练习1、引言 真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。 一类相关性分析试图通过其他变量预测单独的属性值,另一类方法原创 2021-01-18 17:38:41 · 184 阅读 · 0 评论 -
Task2:异常检测之基于统计学的方法
Task2:异常检测之基于统计学的方法1、概述2、参数方法3、非参数方法4、HBOS5、总结6、练习1、概述统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。根据如何指定和学习模型,异常检原创 2021-01-15 23:53:41 · 134 阅读 · 0 评论 -
Task1:异常检测介绍
Task1:异常检测介绍1、什么是异常检测1.1 异常的类别1.2 异常检测任务分类1.3 异常检测场景2、异常检测常用方法2.1 传统方法2.1.1 基于统计学的方法2.1.2 线性模型2.1.3 基于相似度的方法2.2 集成方法2.3 机器学习3、异常检测常用开源库4、练习1、什么是异常检测异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针对的是少数的事件。1.1 异常原创 2021-01-12 23:28:51 · 136 阅读 · 0 评论 -
K-Means和Fuzzy C-Means聚类算法原理以及python代码实现
K-Means和Fuzzy C-Means聚类算法原理以及python代码实现1.K-Means聚类1、原理2、python实现2.Fuzzy C-Means聚类1、原理2、python实现1.K-Means聚类1、原理K-Means算法原理 网上有很多关于K-Means算法的原理,当然通过阅读《统计学习方法》也可以知道K-Means聚类的原理,我这个比较懒,在这里就不打出详细的原理了,具体的可以参考上面的链接,写的很详细。  原创 2020-11-15 17:41:34 · 1300 阅读 · 2 评论 -
Task5 SVM
Task5 SVM支持向量机(Support Vector Machine,即SVM)是一种典型的二分类模型,与传统的分类器不同,SVM分类器在实现经验风险最小化的基础上,还要求置信范围尽可能小,也就是说最终目的是寻找结构风险最小化。通俗的来说,SVM二分类本质就是通过在特征空间内寻找间距最大的超平面将数据划分为两类,以实现区分。SVM于1964年提出,该算法能够有效处理非线性问题,泛化能力强,...原创 2020-05-01 11:39:37 · 296 阅读 · 0 评论 -
Task4 条件随机场
Task4 条件随机场马尔科夫过程隐马尔科夫算法¶条件随机场 (以线性链条件随机场为例)马尔科夫过程定义假设一个随机过程中, ???????? 时刻的状态 ???????? 的条件发布,只与其前一状态 ????????−1 相关,即:则将其称为 马尔可夫过程。隐马尔科夫算法¶定义隐马尔科夫算法是对含有未知参数(隐状态)的马尔可夫链进行建模的生成模型,如下图所示:在隐马尔科夫模型中,包含隐状态 和 观察状态,...原创 2020-04-29 14:46:11 · 243 阅读 · 0 评论 -
Task3 EM算法
Task3 EM算法https://blog.csdn.net/randompeople/article/details/93711747EM算法是机器学习十大算法之一,它很简单,但是也同样很有深度,简单是因为它就分两步求解问题,E步:求期望(expectation)M步:求极大(maximization)深度在于它的数学推理涉及到比较繁杂的概率公式,这篇博客已经很详细的介绍了EM算法的...原创 2020-04-25 18:45:22 · 126 阅读 · 0 评论 -
Task2 朴素贝叶斯
Task2 朴素贝叶斯理论部分1.相关概念生成模型判别模型2.朴素贝叶斯基本原理3.朴素贝叶斯分类器4.极值问题情况下的每个类的分类概率5.下溢问题如何解决6.零概率问题如何解决?练习部分1.sklearn参数详解2. 利用`sklearn`解决聚类问题理论部分1.相关概念生成模型生成模型:在概率统计理论中,生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给...原创 2020-04-24 10:33:27 · 198 阅读 · 0 评论 -
Task1 线性回归
Task1 线性回归线性回归在所有机器学习的所有模型中是最容易理解的,可以用来处理的简单回归问题,按照定义,线性回归就是用一条直线(这是在二维层面上来说)对数据集进行线性拟合,使得大多数样本能够被准确的预测。https://www.jianshu.com/p/68d553d4b1a4这篇blog已经对线性模型的概念做了详细的描述,简单的总结下就是线性模型主要有线性回归、感知机和逻辑斯谛回归,...原创 2020-04-21 18:40:07 · 172 阅读 · 0 评论