机器学习
zaozxueyuan
这个作者很懒,什么都没留下…
展开
-
Kmeans、Kmeans++和KNN算法比较
资源来源:点击打开链接K-Means介绍 K-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据他们的属性分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。其聚类过程可以用下图表示:如图所示,数据样本用圆点表示,每个簇的中心点用叉叉表示。(a)刚开始时是原始数据,杂乱无章,没有label转载 2014-03-30 21:12:10 · 1084 阅读 · 0 评论 -
关于准确率(Precision),召回率(Recall),F1-Measure的解析
在做图像检索时,通常会遇到准确率(Precisio)、召回率(Recall),在此记录一下他们的含义我们用P代表Precision,R代表Recall简单来说,Precision指的是检索出来的条目中有多少是准确的,Recall指的是所有准确的条目有多少被检索出来。也可以用下面这张图来解释我们当然希望检索的结果P越高越好,R也越高越好,但事实转载 2014-03-30 21:19:48 · 3550 阅读 · 1 评论 -
聚类分析(五)基于密度的聚类算法 — DBSCAN
一 什么是基于密度的聚类算法由于层次聚类算法和划分式 聚类算往往只能发现凸形的聚类簇。为了弥补这一缺陷,发现各种任意形状的聚类簇,开发出基于密度的聚类算法。这类算法认为,在整个样本空间点中,各目标类 簇是由一群的稠密样本点组成的,而这些稠密样本点被低密度区域(噪声)分割,而算法的目的就是要过滤低密度区域,发现稠密样本点。二 DBSCAN ( Density-based Spat转载 2014-03-30 21:47:29 · 1738 阅读 · 1 评论 -
聚类算法之MST算法 java实现版本
在介绍最小生成树算法(MST)之前,简单说一下平均链接算法(average-link)的实现过程,平均链接聚类算法和单链接类似,多了计算聚类之间距离矩阵的步骤 实现步骤如下: 1,将元素各成一组,把这些组放入容器H 2,循环元素距离数组,根据两层下标得到将要比较的两个元素A,B 3,在H中分别查找含有A,B的组AH,BH。假如AH不等转载 2014-03-30 21:51:57 · 1760 阅读 · 0 评论 -
聚类分析(六)基于密度的聚类算法 — OPTICS
1 什么是 OPTICS 算法在前面介绍的 DBSCAN 算法中,有两个初始参数 E (邻域半径)和 minPts(E 邻域最小点数 ) 需要用户手动设置输入,并且聚类的类簇结果对这两个参数的取值非常敏感,不同的取值将产生不同的聚类结果,其实这也是大多数其他需要初始化参数聚类算法的弊端。为了克服 DBSCAN 算法这一缺点,提出了 OPTICS 算法( Ordering Poin转载 2014-03-30 21:57:58 · 3007 阅读 · 0 评论 -
聚类分析(四)层次聚类算法
层次聚类算法:前面介绍的 K-means 算法和 K 中心点算法都属于划分式( partitional )聚类算法。层次聚类算法是将所有的样本点自底向上合并组成一棵树或者自顶向下分裂成一棵树的过程,这两种方式分别称为凝聚和分裂。凝聚层次算法 :初始阶段,将每个样本点分别当做其类簇,然后合并这些原子类簇直至达到预期的类簇数或者其他终止条件。分裂层次算法 :初始转载 2014-03-30 21:58:58 · 2155 阅读 · 0 评论 -
聚类分析(七)离群点分析
一、 什么是离群点分析1 、什么是离群点?在样本空间中,与其他样本点的一般行为或特征不一致的点,我们称为离群点。2 、离群点产生的原因?第一, 计算的误差或者操作的错误所致,比如:某人的年龄 -999 岁,这就是明显由误操作所导致的离群点;第二, 数据本身的可变性或弹性所致,比如:一个公司中 CEO 的工资肯定是明显高于其他普转载 2014-03-30 21:59:53 · 19656 阅读 · 3 评论 -
聚类分析(三) K中心点算法(k-mediods)
K 中心点算法( K-medoids )前面介绍了 k-means 算法,并列举了该算法的缺点。而 K 中心点算法( K-medoids )正好能解决 k-means 算法中的 “噪声”敏感这个问题。如何解决的呢?首先,我们得介绍下 k-means 算法为什么会对“噪声”敏感。还记得 K-means 寻找质点的过程吗?对某类簇中所有的样本点维度求平均值,即获得该类簇质点的维转载 2014-03-30 22:01:01 · 3870 阅读 · 1 评论 -
聚类分析(一) 什么是聚类分析
将一群物理对象或者抽象对象的划分成相似的对象类的过程。其中类簇是数据对象的集合,在类簇中所有的对象都彼此相似,而类簇与类簇之间的对象是彼此相异。 聚类除了可以用于数据分割(data segmentation),也可以用于离群点检测(outlier detection),所谓的离群点指的是与“普通”点相对应的“异常”点,而这些“异常”点往往值的注意。 很多人在转载 2014-03-30 22:02:02 · 8856 阅读 · 0 评论