Data Mining
文章平均质量分 73
xjnine
这个作者很懒,什么都没留下…
展开
-
网络挖掘的初步认识
由此引出网络挖掘的概念,它指的是数据挖掘技术在网络信息处理上的应用。信息化的逐步深入和可获取数据爆炸性的增长,为网络挖掘的发展提供了足够的沃土,引起多个学科的关注和涉足,如社会组织学、信息管理学和计算机科学。随着大数据时代的来临,旨在快速、高效获取知识的网络挖掘将获取的巨大的发展空间,成为一门真正的科学。网络挖掘的重要人物有卡内基梅隆大学的Christos Falousos、康奈尔大学的Jo...原创 2013-09-25 00:18:50 · 315 阅读 · 0 评论 -
DBSCAN算法的实现过程
1.初始化设置方式: 建立原始的数据集dataset,并在原始数据集中增加一个数据属性ClusterId字段,本字段用于存储分类后的结果,刚开始每个对象的ClusterId属性值都为0; 建立一个搜寻的数据集Search,用于临时存储搜寻的中间结果。 对参数MinPts和Eps进行初始化。2.遍历dataset,将每一个数据对象当做种子进行考察,i...2014-04-15 16:05:27 · 1604 阅读 · 0 评论 -
Matlab下用自带函数进行的聚类分析
说明:如果是要用matlab做kmeans聚类分析,直接使用函数kmeans即可。使用方法:kmeans(输入矩阵,分类个数k)。 转载一:MATLAB提供了两种方法进行聚类分析:1、利用 clusterdata 函数对数据样本进行一次聚类,这个方法简洁方便,其特点是使用范围较窄,不能由用户根据自身需要来设定参数,更改距离计算方法;2、分步聚类:( 1)用 pdist函数计算...原创 2014-04-23 14:22:59 · 3469 阅读 · 0 评论 -
LDA和PCA算法
1. 问题之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维,但PCA没有将类别标签考虑进去,属于无监督的。比如回到上次提出的文档中含有“learn”和“study”的问题,使用PCA后,也许可以将这两个特征合并为一个,降了维度。但假设我们的类别标签y是判断这篇文...原创 2016-04-14 16:59:24 · 272 阅读 · 0 评论 -
在window下搭建hadoop的架构和eclipse开发环境
一.安装hadoop分布式集群:1 安装Vmware WorkStation软件有些人会问,为何要安装这个软件,这是一个VM公司提供的虚拟机工作平台,后面需要在这个平台上安装linux操作系统。具体安装过程网上有很多资料,这里不作过多的说明。 2 在虚拟机上安装linux操作系统在前一步的基础之上安装linux操作系统,因为hadoop一般是运行在linux平台之上的,虽然...原创 2016-07-20 10:37:28 · 108 阅读 · 0 评论 -
在Ubuntu下对hadoop2.x进行64位编译出错原因
由于hadoop2.x后,在lib/native/目录下面的libhadoop.so.1.0.0 文件是32位的,所以如果在64位的linux上安装官方提供的hadoop2.x,肯定不能运行,就需要对其进行编译。编译过程详见另一篇blog。 但是在编译过程中总是出现下面错误 :[ERROR] Failed to execute goal org.apache.maven.pl...原创 2016-09-16 16:46:32 · 172 阅读 · 0 评论 -
使用ant在window下编译不同hadoop版本的eclipse插件包Ant 1)下载 http://ant.apache.org/bindownl...
Ant 1)下载 http://ant.apache.org/bindownload.cgi apache-ant-1.9.4-bin.zip 2)解压到一个盘,如图所示: 3).环境变量的配置 新建ANT_HOME=E:\ant\apache-ant-1.9.4-bin\apache-ant-1.9.4 在PATH后面加;...原创 2016-10-12 19:20:42 · 210 阅读 · 0 评论 -
CluStream算法
思想:clustream算法的核心思想就是金字塔时间快照,以及分为on-line操作的micro-cluster和off-line操作的macro-cluster两个阶段,同时属于landmark window(界标窗口)的处理模式。 方法:其中micro-cluster是用来存储数据点的特征向量组的,用于存储线上分析时候整个数据流的静态统计信息,并根据金字塔时间在选定的时间来存储整个...原创 2016-12-09 15:36:39 · 2666 阅读 · 1 评论 -
DenStream算法
思想:DenStream可以说是针对Clustream的缺陷进行改进的,通过引入CMC(核心微簇),PMC(潜在核心微簇)以及OMC(离群微簇)以及时间衰减函数f(t)=2-λ来对不同时间的数据点的重要性进行加权。对微簇micro-cluster的定义也加入了时间权重。 方法:在线阶段,同时维护PMC和OMC两个队列,根据在两个队列的权重变化来对微簇的在潜在核心和离群两个角色进行调整变...原创 2016-12-09 16:15:21 · 2320 阅读 · 0 评论