数据挖掘领域顶级会议期刊及其分析 JournalsACM TKDD http://tkdd.cs.uiuc.edu/DMKD http://www.springerlink.com/content/1573-756X/?p=859c3e83455d41679ef1be783e923d1d&pi=0IEEE TKDE http://www.ieee.org/organizations/pubs/transactions/tkd
UCI数据集和源代码&数据挖掘的数据集资源 《UCI数据集和源代码》UCI数据集是一个常用的标准测试数据集,下载地址在http://www.ics.uci.edu/~mlearn/MLRepository.html我的主页上也有整理好的一些UCI数据集(arff格式):http://lamda.nju.edu.cn/yuy/files/download/UCI_arff.zip在看别人的论文时,别人使用的数据集会给出数据集的出处或下载地址(除非是很机密的数据,例如与国家安全有关)
聚类分析中几种算法的比较 将数据库中的对象进行聚类是聚类分析的基本操作,其准则是使属于同一类的个体间距离尽可能小,而不同类个体间距离尽可能大,为了找到效率高、通用性强的聚类方法人们从不同角度提出了近百种聚类方法,典型的有K-means方法、K-medoids方法、CLARANS方法,BIRCH方法等,这些算法适用于特定的问题及用户。本文综合提出了评价聚类算法好坏的5个标准,基于这5个标准,对数据挖掘中常用聚类方法作了比较分析,以便于人们更容易、更快捷地找到一种适用于特定问题及用户的聚类算法。
Acrobat9.0激活方法 在安装软件之前,先要打开 C:/windows/system32/drivers/etc/hosts 文件,往其中添加 127.0.0.1 activate.adobe.com 一行,这是防止到官方网站验证。 hosts 是个隐藏文件,如果你找不到,则需要先修改“文件夹选项”中的相关设定。打开“文件夹选项”,切换到“查看”选项卡,选中“隐藏文件和文件夹”下面的“显示所有文件和文件夹”,然后单击“确定”。也有人说要往 hosts 中添加更多屏蔽网址,如
一些有用的电驴网址 0、http://www.emule-project.net/1、http://www.simplecd.org/2. http://qvocd.com/3、http://www.ied2k.com/4、http://www.thshare.net/5、http://www.eastgame.net eastgame.net 6、http://www.chnp2p.com/7、http://www.h
python与java在语法上的几个不同点 python的基本语法,和java的做个比较:一、数 python只有4种类型的数:整数,长整数,浮点数和java中没有的复数; java则有char,short,byte,int,long,float,double类型;二、字符串 python没有表示单个字符的char类型,可以用单引号,双引号来表示一个常量字符串,也可以用三引号('''或者“”“)来表示一个多行的字符串;
Hadoop示例程序WordCount详解 package com.felix; import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable;
Hadoop中的数据库访问 Hadoop主要用来对非结构化或半结构化(HBase)数据进行存储和分析,而结构化的数据则一般使用数据库来进行存储和访问。本文的主要内容则是讲述如何将Hadoop与现有的数据库结合起来,在Hadoop应用程序中访问数据库中的文件。1.DBInputFormatDBInputFormat是Hadoop从0.19.0开始支持的一种输入格式,包含在包org.apache.hadoop.mapred.lib.db中,主要用来与现有的数据库系统进行交互,包括MySQL、PostgreSQL、Oracle等几个数据库系
VC实现无标题栏对话框的拖动 1.在消息映射中手动添加:afx_msg UINT OnNcHitTest(CPoint pt);2.在.cpp文件中添加:BEGIN_MESSAGE_MAP(CMyDialog, CDialog)//{{AFX_MSG_MAP(CMyDialog)ON_WM_SYSCOMMAND()ON_BN_CLICKED(ID_APP_ABOUT,OnAbout)ON_WM_PAINT()ON_W
c++&&python实现Hadoop Streaming的partitioner和模块化 Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程工作流程 : InputFile --> mappers --> [Partitioner] --> reducers --> outputFiles理解 : 1 输入文件,可以是指定远程文件系统内的文件夹下的 *2 通过集群自己分解到各个PC上,每个mapper是一个可执行文件,相
Ubuntu下使用Dr.com上网 首先,当然要下载个linux下的drcom源代码,在这里可以下载最新版本的drcom。http://sourceforge.net/projects/drcom-client/files/drcom-for-linux-2.6/ 然后把下载的drcom-1.*.*.tar.gz放在桌面,右键解压到此处。 进入刚解压的目录,执行makesudo make install PS:在这里
在Ubuntu9.10环境下的Hadoop分布式模式的部署 Linux下的Hadoop--分布式模式的部署 选用软件版本:1. jdk 1.6.0.102. hadoop-0.19.11. 准备Host环境和配置ssh主节点IP是192.168.1.247,子节点1是192.168.1.36,修改两个节点的/etc/hosts文件:# /etc/hosts (for master AND slave)192.168.1.247 master192.168.1.36 slave分别在两台机器上添加用户hadoop①在master上:groupadd -g 2000
用Python来写MapReduce的实际应用程序 用Python来写分布式的程序。这样速度快。便于调试,更有实际意义。MapReduce适合于对文本文件的处理及数据挖掘用: 在每台机器上:su - hadoopwget http://www.python.org/ftp/python/3.0.1/Python-3.0.1.tar.bz2tar jxvf Python-3.0.1.tar.bz2cd Python-3.0.1./configure --prefix=/h
Hadoop学习资料、博客及网站汇总 Hadoop学习资料 -- 这里面总结了很多的东西,值得一一细看http://cloud21.javaeye.com/blog/607175 关于Hadoop的两本书 -- 有电子书下载http://caibinbupt.javaeye.com/blog/418846 JavaEye Hadoop圈子 -- 圈子中的Hadoop资源篇很不错http://hadoop.group.javaeye.com/ 豆瓣hadoop小组http://www.douban.com/group/156966/ 推荐Clou
Hadoop学习资料及网站汇总 Hadoop学习资料 -- 这里面总结了很多的东西,值得一一细看http://cloud21.iteye.com/blog/607175关于Hadoop的两本书 -- 有电子书下载http://caibinbupt.iteye.com/blog/418846JavaEye Hadoop圈子 -- 圈子中的Hadoop资源篇很不错http://hadoop.group.iteye.c...