![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
云计算
ydd326
这个作者很懒,什么都没留下…
展开
-
MapReduce性能优化---调度
目前,很多internet服务都具有上百万的用户。这些服务产生海量的数据,如何针对海量数据进行分析和处理是目前亟待解决的问题。Google提出了一个令人兴奋的架构。MapReduce把任务分解成小任务,这些小任务可以在普通PC集群上并行执行。这种架构的一种开源实现是yahoo原创 2011-10-12 19:40:35 · 1392 阅读 · 0 评论 -
Hadoop分布式文件系统架构及设计要点
一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据转载 2011-10-12 21:43:15 · 700 阅读 · 0 评论 -
HDFS集群的平衡
文件块在集群中均匀分布的好处---HDFS能达到最佳工作性能,一个负载不均衡的集群可能影响MapReduce的本地化优势,为负载搞的数据节点带来更大的压力。1. 选用默认的每个节点20个map来运行distcp来进行数据复制,可以避免不均衡的情况。总之让map的数量多于集群中节点的数量。2. 均衡器程序是hadoop的一个守护进程,用来重新分布块,具体做法是遵循块副本放置策略(把块副本放在原创 2011-10-25 09:33:37 · 1791 阅读 · 0 评论 -
HDFS概念
HDFS上的文件也被分为以块为大小的分块,作为单独的单元存储。HDFS中的块比磁盘的块大,目的是为了减小寻址开销。通过让一个块足够大,从磁盘转移数据的时间能够远远大于定位这个块开始端的时间。因此,传送一个由多个块组成的文件的时间就取决于磁盘传送率。名称节点 --- 管理者数据节点 --- 工作者(多个)名称节点管理文件系统规定命名空间,它维护着这个文件系统树以及这个数内所有的文件和索引原创 2011-10-26 20:45:37 · 789 阅读 · 0 评论 -
hive的安装
在安装hdoop以后,打算安装hive,数据库用mysql。在安装的过程中还是经过了一番周折的。记录下来,希望对大家有帮助。1. Hadoop的安装 请参考http://blog.csdn.net/ydd326/article/details/68603042. MySQL的安装 sudo apt-get install mysql-server 根用户进入原创 2011-12-09 13:00:34 · 629 阅读 · 0 评论 -
Hadoop的调度器
随着MapReduce的流行,其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中,有一个组件非常重要,那就是调度器,它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中,调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器有三种,分别为:(1)默认的调度器FIFOHadoop中默认的调度器,它先按照作业的优先级高低,再按照转载 2011-11-23 10:26:47 · 734 阅读 · 0 评论 -
linux下从安装JDK到安装ssh到hadoop单机伪分布式部署
环境: ubuntu 10.10 JDK1.6.0.27 hadoop 0.20.2 一. ubuntu 下 JDK 的安装:1. 下载jdk-6u27-linux-i586.bin2. 拷贝到/usr/java,设置文件的操作权限3. $ ./jdk-6u27-linux-i586.bin开始安装4. 设置环境变量 vi /etc/profile原创 2011-10-10 20:16:21 · 1788 阅读 · 2 评论