接上篇课设_分类聚类预测算法原理概述

分类

KNN K近邻

这是一种常用的监督学习方法,简单来说,根据k个最近的邻居的状态来决定样本的状态,即‘物以类聚,人以群分’

贝叶斯分类器

通过某对象的先验概率,利用 贝叶斯公式计算出其后验概率 ,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。

决策树分类器

决策树模式呈树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。学习时利用训练数据,根据损失函数最小化的原则建立决策树模型;预测时,对新的数据,利用决策树模型进行分类。

决策树学习通常包括3个步骤:特征选择、决策树的生成和决策树的剪枝。

AdaBoost集成学习

(1)首先,是初始化训练数据的权值分布D1。假设有N个训练样本数据,则每一个训练样本最开始时,都被赋予相同的权值:w1=1/N。
(2)然后,训练弱分类器hi。具体训练过程中是:如果某个训练样本点,被弱分类器hi准确地分类,那么在构造下一个训练集中,它对应的权值要减小;相反,如果某个训练样本点被错误分类,那么它的权值就应该增大。权值更新过的样本集被用于训练下一个分类器,整个训练过程如此迭代地进行下去。
(3)最后,将各个训练得到的弱分类器组合成一个强分类器。各个弱分类器的训练过程结束后,加大分类误差率小的弱分类器的权重,使其在最终的分类函数中起着较大的决定作用,而降低分类误差率大的弱分类器的权重,使其在最终的分类函数中起着较小的决定作用。
换而言之,误差率低的弱分类器在最终分类器中占的权重较大,否则较小。

随机森林

随机森林就是用随机的方式建立一个森林,在森林里有很多决策树组成,并且每一棵决策树之间是没有关联的。当有一个新样本的时候,我们让森林的每一棵决策树分别进行判断,看看这个样本属于哪一类,然后用投票的方式,哪一类被选择的多,作为最终的分类结果。

GBDT梯度提升决策树

GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于分类。

是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。

聚类

Kmeans K均值 基于距离

首先,随机选择K个对象,而且所选择的每个对象都代表一个组的初始均值或初始的组中心值,对剩余的每个对象,根据其与各个组初始均值的距离,将他们分配各最近的(最相似)小组,然后重新计算每个小组新的均值,这个过程不断重复,直到所有的对象在K组分布中都找到离自己最近的组。

BIRCH 综合的层次聚类算法

通过扫描数据库,建立一个初始存放于内存中的聚类特征树, 然后对聚类特征树的叶结点进行聚类。它的核心是聚类特征(CF)和聚类特征树(CF Tree)。

CF 是指三元组CF=(N,LS,SS),用来概括子簇信息,而不是存储所有的数据点。

其中:N:簇中d 维点的数目; LS:N 个点的线性和;SS:N 个点的平方和。

比如给定一 个由二维点组成的集合{(3,4),(2,6),(4,5)},那么: CF 结构概括了簇的基本信息,并且是高度压缩的,它存储了小于实际数据点的聚类信 息。

同时CF 的三元结构设置使得计算簇的半径、簇的直径、簇与簇之间的距离等非常容易。

DBSCAN 基于密度的聚类算法

基于密度的聚类算法可以发现任意形状的聚类。

在基于密度的聚类算法中,通过在数据集中寻找被低密度区域分离的高密度区域,将分离出的高密度区域作为一个独立的类别。

在这里插入图片描述

GMM 高斯混合模型

高斯混合模型指的是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,通常用于解决同一集合下的数据包含多个不同的分布的情况。

在这里插入图片描述

Mean_Shift 均值漂移算法

Mean Shift(均值漂移)是基于密度的非参数聚类算法,其算法思想是假设不同簇类的数据集符合不同的概率密度分布,找到任一样本点密度增大的最快方向(最快方向的含义就是Mean Shift),样本密度高的区域对应于该分布的最大值,这些样本点最终会在局部密度最大值收敛,且收敛到相同局部最大值的点被认为是同一簇类的成员。

预测

XGBoost 极致梯度提升 集成学习

极致梯度提升,是一种基于GBDT的算法实现。

XGBoost的基本思想和GBDT相同,但是做了一些优化,比如二阶导数使损失函数更精准;正则项避免树过拟合;Block存储可以并行计算等。

XGBoost具有高效、灵活和轻便的特点。

线性回归

能够用一个直线较为精确地描述数据之间的关系,这样当出现新的数据的时候,就能够预测出一个简单的值

CART决策树回归

回归树的原理是将特征平面划分成若干单元,每一个划分单元都对应一个特定的输出。因为每个结点都是yes和no的判断,所以划分的边界是平行于坐标轴的。对于测试数据,我们只要将特征按照决策过程将其归到某个单元,便得到对应的回归输出值。

在这里插入图片描述

多项式回归

通过增加自变量上的次数,而将数据映射到高维空间的方法,从而提高模型拟合复杂数据的效果

岭回归

实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法

贝叶斯网络

贝叶斯网络(Bayesian network),又称信念网络(belief network)或是有向无环图模型(directed acyclic graphical model)

是一种概率图型模型。

马尔科夫模型

为了运用马尔可夫预测法对事件发展过程中状态出现的概率进行预测

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值