BigData
文章平均质量分 58
zhxue123
这个作者很懒,什么都没留下…
展开
-
Hadoop MR 数据聚类算法
。原创 2011-09-09 16:24:35 · 783 阅读 · 0 评论 -
Where can I get large datasets open to the public?
Here are many of the links mentioned so far:Junar.comhttp://archive.ics.uci.edu/ml/http://aws.amazon.com/datasets?_...http://crawdad.org/http://platform.newscred.comhttp://data.cityofchi转载 2011-12-30 15:57:39 · 672 阅读 · 0 评论 -
CentOS 5.6 配置Openldap
CentOS下LDAP服务配置指南1. LDAP服务器端配置2. LDAP客户端配置3. LDAP服务器复制4. LDAP服务器安全通信 一 LDAP服务器端配置管理1. LDAP服务器软件包安装CentOS系统中要实现openLDAP的功能必须要安装openldap,openldap-servers,openldap-cl转载 2012-03-30 09:54:19 · 6694 阅读 · 0 评论 -
NoSQL总结
一、性能测试:Mongodb:http://www.cnblogs.com/lovecindywang/archive/2011/03/02/1969324.html主流NoSQL数据库评测:http://database.51cto.com/art/201107/275652.htm二、Mongodb 与HBase1)建立多索引Mongodb可以很容易建立多个索引,特转载 2012-04-12 17:43:24 · 887 阅读 · 0 评论 -
并行文件系统:元数据
综述了目前主流的元数据做法:1)集中式2)分布式3)无元数据(通过算法映射)http://blog.csdn.net/liuben/article/details/6749188转载 2012-06-02 18:18:59 · 831 阅读 · 0 评论 -
Hadoop管理
大部分内容源自hadoop-definitive guide, hadoop in action(1) Removing data nodesFor a smoother and safer operation, particularlywhen retiring large number of DataNodes, you should use Hadoop’s deco原创 2012-06-03 17:27:21 · 576 阅读 · 0 评论 -
Hadoop MapTask/ReduceTask各阶段耗费时间的测试
io.block.size:64Mmapred.mapinput.min.splitsize:512Mio.sort.mb:512M每个maptask的输入为512M的数据,在每个maptask中,发生了3次spill缓存溢写。下面是通过日志统计出的各个细分阶段所用的时间:每个TaskTracker都使用一个队列保存JobTracker分发过来的Task,我们将一个Ta原创 2011-10-10 17:11:56 · 1961 阅读 · 0 评论 -
hadoop安装配置及问题
废话少说,lets do it一、安装配置(1)下载安装包:wget http://labs.renren.com/apache-mirror//hadoop/core/hadoop-1.0.0/hadoop-1.0.0.tar.gz (2)解压:tar xzvf hadoop-1.0.0.tar.gz (3)配置文件(集群)(datanode和namenode配置原创 2012-02-22 20:05:13 · 1576 阅读 · 0 评论 -
微博系统
12个开源微博系统:http://smashfreakz.com/2012/05/12-open-source-microblogging-software/ShareTronix Xweibo iweibo等4个微博的比较(还算详细)http://www.chinaz.com/news/2011/0613/188176.shtml这个最好,直接秒杀上转载 2013-04-06 23:41:23 · 1186 阅读 · 0 评论 -
Searching and Ranking
crawlersearch engine转载 2013-09-08 22:52:51 · 1095 阅读 · 0 评论 -
Big Data系统架构
FaceBook目前采用了Hadoop+Hive的架构,Sina也是Linked in 采用了Hadoop,Kafka(messagebus)等技术淘宝:云梯原创 2012-09-14 18:56:06 · 833 阅读 · 0 评论 -
Spark集群部署
Spark集群部署1. 安装环境简介 硬件环境:两台四核cpu、4G内存、500G硬盘的虚拟机。 软件环境:64为Ubuntu12.04 LTS;主机名分别为spark1、spark2,IP地址分别为172.18.18.239/240。JDK版本为1.7。集群上已经成功部署了Hadoop2.2,详细的部署过程可以参见另一篇文档Yarn的安装与部署2.原创 2014-02-14 14:50:56 · 15507 阅读 · 1 评论 -
如何查询SCI和EI检索号
为了年终考核,花了一个早上才搞清楚,里面有很多小问题。下面详细说明具体过程:SCI检索号1.进入图书馆主页;2.选择“电子数据库”;3.选择外文数据库中的“Web of Science”,进入到“http://isiknowledge.com”;4.选择“Web of Science”选项卡,再点击下面的“检索”选项卡;5.检索范围选择“标题”,然后转载 2011-11-24 21:02:46 · 68241 阅读 · 3 评论 -
数据密集型计算-技术、概念及动向
Google将放弃MapReduce 新索引系统将迁移至BigTablehttp://developer.51cto.com/art/201009/226451.htm 海量数据处理算法http://blog.sina.com.cn/s/blog_40原创 2011-03-27 21:58:00 · 2113 阅读 · 0 评论 -
串行IO与并行IO的效率比较
MPI_File_read_at函数与C语言中的fread函数,依次读取一个100M的文件,读取时间如下所示:实验一:[zhangyang@mpi002 kmeans_exper]$ mpiexec -np 1 ./mpi_c_fspeedThere are 1500原创 2011-09-23 17:05:13 · 5168 阅读 · 1 评论 -
Hadoop优化经验——来自经验丰富的工程师
我们有一个Hadoop集群从上个月开始遇到一系列性能问题,在逐一解决的过程中,积累了以下的优化经验。1. 网络带宽Hadoop集群的服务器在规划时就在统一的交换机下,这是在官方文档中建议的部署方式。但是我们的这台交换机和其他交换机的互联带宽有限,所以在客户端遇到了HD转载 2011-09-28 13:14:17 · 981 阅读 · 0 评论 -
MapReduce之上——Sawzall
海量数据分析:Sawzall并行处理(中文版论文) Google的工程师为了方便内部人员使用MapRe转载 2011-09-28 13:15:08 · 2497 阅读 · 0 评论 -
Linux I/O及 I/O Cache
总结一下平时使用的文件操作方法:1. 通过标准c的库函数访问文件2. 通过Linux系统调用访问文件3. 通过内存映射(mmap)访问文件其中,标准c的库函数里,实际也是调用了系统调用完成IO,但是库函数有自己的缓存机制。内存映射是将文件映射到虚存中的一块空间,将原创 2011-10-13 18:16:35 · 2574 阅读 · 2 评论 -
使用Hadoop做K-Means计算的总结
以K均值聚类算法为实验对象。通过调整各项Hadoop参数,已经不能再进一步缩短K均值迭代的时间,在计算过程中,CPU User态的使用率始终维持在95%左右。尝试过的配置项有:mapred.min.split.sizeio.sort.mbio.sort.spi原创 2011-09-29 17:37:07 · 2014 阅读 · 0 评论 -
VNC多用户
1.为vnc建立用户 newuser2.拷贝/root/.vnc/里的xstartup文件到用户目录 /home/newuser/3.修改xstartup文件,在最后增加:gnome-session &4.以newuser身份启动vncserver注意编号要与root岔开,如果root用的是:1,则newuser使用:25.和客户端之间相互复制粘贴:vncconfi原创 2011-10-18 16:54:48 · 985 阅读 · 0 评论 -
CentOS 5.6 系统Python升级 和 Yum工具的修复
CentOS 5.6操作系统默认的Python版本是2.4,这个版本相对于较新版本的Python3.0已经非常老了。因此,多数情况下使用CentOS 5.6操作系统时会升级Python的版本,但是CentOS 5.6操作系统的Yum工具是基于Python2.4的,因此,Python的升级常常伴随着Yum工具的不能使用。那么,有没有办法既升级了Python版本,还能保证Yum可以继续使用呢?解决原创 2011-11-22 13:12:48 · 2887 阅读 · 1 评论 -
rpm不能使用的问题
hadoop刀片组,mpi刀片组经常出现rpm不能使用的问题。实际上,有一个简单可行的解决方案,只需要三个命令:1)cd /var/lib/rpm; 2)rm -rf __* ; 3)rpm -rebuilddb;第3)步执行的时间会稍长一些,耐心等待。等这三步都执行完毕后,rpm就可以使用了原创 2011-11-18 18:02:09 · 1342 阅读 · 0 评论 -
待解决问题
1) 限制用户只能登陆指定主机的功能。例如,用户zhangsan只能登陆到IP为192.168.137.2-192.168.137.32之间的主机 2) Ldap服务进程停止后,原系统账户无法登陆的问题。 例如,现有系统账户lisi,Ldap账户zhangsan,且/etc/passwd文件中无zhagnsan,Ldap服务器数据库中无lisi;当Ldap服务进程slapd停原创 2011-11-09 11:18:46 · 529 阅读 · 0 评论 -
分布式缓存
http://taotao1240.blog.51cto.com/731446/757904Redis VS memcacheredis 作者antirez写的二者的权威比较http://antirez.com/post/redis-memcached-benchmark.html转载 2012-08-10 15:14:08 · 530 阅读 · 0 评论