![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
xiaoyu4009
这个作者很懒,什么都没留下…
展开
-
聚类算法之CHAMELEON(Java实现)
转载原地址:http://www.cnblogs.com/zhangchaoyang/articles/2182752.htmlCHAMELEON是一种两阶段聚类法。第一阶段把点分成很多小的簇;第二阶段根据相近程度合并这些小的簇。第一阶段采用K最邻近法,即把一个点和它最邻近的K个点连接起来。第二阶段计算任意两个簇的互连性RI和紧密性RC,当两个指标都比较大时才合并这两个簇。相对互连度转载 2015-06-05 15:00:14 · 637 阅读 · 0 评论 -
K中心点算法(K-medoids) java实现
package com.kmedoids;import java.util.ArrayList;public class Cluster { private String clusterName; // 类簇名 private Medoid medoid; // 类簇的质点 private ArrayList dataPoints; // 类簇中各样本点 pu转载 2015-06-04 16:19:34 · 3574 阅读 · 1 评论 -
基本聚类方法概述
1:划分方法:只有一层,把n个对象的集合划分为k个分区,kk-均值 和 k-中心点算法,这些属于启发式聚类方法,适合于发现中小型的数据库中的球状互斥簇2:层次方法:将数据库划分并分层分为 凝聚 和分裂方法:凝聚:把一个对象当成一个组,与最相近的那个对象组合成一个簇,之后迭代,直到所有的对象在一个簇里面或者达到停止条件而停止。因此也被称为自底向上的方法分裂:把所有的对象放在一原创 2015-06-04 10:47:03 · 1142 阅读 · 0 评论 -
初识聚类算法:K均值、凝聚层次聚类和DBSCAN
聚类分析就仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组(簇)。其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的。组内相似性越大,组间差别越大,聚类就越好。先介绍下聚类的不同类型,通常有以下几种:(1)层次的与划分的:如果允许簇具有子簇,则我们得到一个层次聚类。层次聚类是嵌套簇的集族,组织成一棵树。划分聚类简单地将数据对象划分成不重叠的子集(簇),使得每个数据对象转载 2015-06-03 15:20:55 · 1210 阅读 · 1 评论 -
数值属性的相异性:闵可夫斯基距离
本文介绍数值属性刻画的对象之间的相异性度量,首先,应该把数据进行规范化,使之落入更小的值域,例[0,1],[0.0,1.0]1:最流行的距离度量:欧几里得距离2:曼哈顿距离3:闵可夫斯基距离其中 h>=1当h=1,表示的是曼哈顿距离当h=2,表示的是欧几里得距离原创 2015-06-02 16:44:16 · 2595 阅读 · 0 评论 -
二元属性的邻近性度量
二元属性:0和1.显而易见,0表示不出现,1表示出现分为:对称性和非对称性对称性二元属性:两个个状态同等重要非对称性:两个状态不是同等重要的,两个都取1(正匹配)比两个都取0(负匹配)的情况更有意义邻近性度量:为相异性和相似性度量问:如何刻画对称二元属性之间的相异性答:这是对象i 与对象j之间二元属性的列联表q:表示对象i 与对象j都取1的属性数,其余类似p原创 2015-06-02 16:27:44 · 5045 阅读 · 0 评论 -
数据矩阵与相异性矩阵
数据矩阵:n*p 矩阵(n个对象,每个对象有p个属性)xi 表示为对象 i,xij表示对象i的第j个属性的值相异性矩阵:n*n矩阵,存放对象之间的相异性,即对象之间的差异性度量例如:主对角线元素为0,因为对象与对象本身被认为是没有差异的d(i,j) = d(j,i),因此相异性矩阵是对称矩阵相似性度量:相似性是相异性相反的概念,用sim(原创 2015-06-02 15:53:03 · 6673 阅读 · 0 评论 -
混合类型数据的相异性
混合类型数据:一个对象肯呢个由多种属性刻画,这些属性可能是标称的、非对称二元的、数值的或者序数的那么,如何计算这样子的相异性呢?答:假设数据集包含p个属性,对象i与j之间的相异性表示为:(f表示属性个数)(表示针对属性f,对象i与j之间的相异性)其中,指示符=0,如果xif 或xjf缺失,或者xif=xjf=0且f是非对称二元属性,否则取值为1f是数值的原创 2015-06-02 17:31:24 · 2856 阅读 · 0 评论 -
标称属性的邻近性度量
标称属性:可以拥有2个或者更多个属性值例:标称属性color:red,yellow,black,blue,green.(有5个属性值可选)问:对象由标称属性刻画,那么怎么判定对象之间的相异性呢?答:p:表示标称属性可选的属性值的个数,在上例中,p=5m:表示对象i与对象j之间有相同属性值的个数当然,我们可以对m赋予权重,增加m的影响度标称属性之间的相异性也可原创 2015-06-02 16:07:35 · 3434 阅读 · 0 评论 -
中心趋势度量和度量数据散布
一 中心趋势度量中心趋势度量主要包括:均值,中位数,众数,中列数例:属性salary(单位千美元),以递增方式排列:30,31,47,50,52,52,56,60,63,70,70,1101:均值数据集中心最常用,最有效的数值度量是(算术)均值对于上面的例子:均值为58在上面这个例子中,所有的值价值都是均等的,但是有的时候,每个数据的价值并不均等,因此需要为每个数据赋予原创 2015-06-16 16:27:16 · 10334 阅读 · 0 评论 -
距离汇总
原文地址:http://blog.sina.com.cn/s/blog_6f611c300101c5u2.html1.欧氏距离,最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点 x =(x1,...,xn) 和 y = (y1,...,yn) 之间的距离为: (1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:转载 2015-06-11 14:44:56 · 611 阅读 · 0 评论