计算思维与数据科学②

聚类方法

1、K-means(贪心算法的典型代表)

                                                   (最小化平方误差)

E越小,簇内样本相似度越高。

优点:速度快、复杂度低、原理简单、易理解、易于实现。

缺点:对异常点敏感、获得的是局部最优解而不是全局最优解、聚类结果与初始点选取有关、不能发现非凸形状的聚类。

2、子空间聚类(实现高维数据集聚类)

思想:谱聚类:一种基于图论的点对聚类方法。通过对样本数据的拉普拉斯矩阵的特征向量进行聚类。将聚类问题转换为图的最优划分问题。

3、高斯混合模型:由K个单高斯模型组合而成的模型。

混合模型:用来表示在总体分布中含有K个子分布的概率模型。

EM算法:EM(Expectation-Maximum)算法也称期望最大化算法。EM算法是最常见的隐变量估计方法,EM算法是一种迭代优化策略,由于它的计算方法中每一次迭代都分两步,其中一个为期望步(E步),另一个为极大步(M步),所以算法被称为EM算法。

4、DBSCAN聚类

一种基于密度的聚类方法,可发现任意形状的类簇,对噪声不敏感。

DBSCAN的4种关系:密度直达,密度相连,密度可达,非密度相连。

优点:对远离中心的噪声点鲁棒性好

无需知道聚类簇的数量

可以发现任意现状的聚类簇

5、密度峰值聚类

寻找被低密度区域分离的高密度区域。

 

聚类总结

分类方法

1、K近邻:少数服从多数(对每个特征进行归一化)。K值过小,容易发生过拟合,使用交叉验证法求K值。

2、Logistic回归:对n维输入样本线性加权后得到g(x)函数,对函数进行sigmoid变换。

3、朴素贝叶斯:贝叶斯分类 以贝叶斯定理为基础的一类分类算法的总称,下面A为特征,B为类别。

                                                    

4、支持向量机(SVM):寻找最大间隔超平面,WxT+b=0,寻找最优决策边界。

5、决策树:每个节点表示一个属性上的判断,每个分支表示一个判断的输出结果,每个叶子结点表示一种分类结果。

      关键点:在每一轮迭代中选择最优特征。(信息增益最大被选为划分属性)

      三个主要特征:信息增益、增益率、基尼指数

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值