hadoop
文章平均质量分 82
xh16319
这个作者很懒,什么都没留下…
展开
-
Hadoop配置项整理(hdfs-site.xml)
续上篇整理一下hdfs相关的配置项 name valueDescription dfs.default.chunk.view.size32768namenode的http访问页面中针对每个文件的内容显示大小,通常无需设置。dfs.datanode.du.reserved1073741824每块磁盘所保留的空间大小,需要设置转载 2014-06-24 10:48:49 · 978 阅读 · 0 评论 -
Hadoop集群三种作业调度算法介绍
Hadoop集群中有三种作业调度算法,分别为FIFO,公平调度算法和计算能力调度算法先来先服务(FIFO)Hadoop中默认的调度器FIFO,它先按照作业的优先级高低,再按照到达时间的先后选择被执行的作业。FIFO比较简单,hadoop中只有一个作业队列,被提交的作业按照先后顺序在作业队列中排队,新来的作业插入到队尾。一个作业运行完后,总是从队首取下一个作业运行。这种调度策略的优点是简转载 2014-11-05 16:56:51 · 1241 阅读 · 0 评论 -
HDFS体系结构简介及优缺点
1 HDFS体系结构简介及优缺点1.1体系结构简介 HDFS是一个主/从(Mater/Slave)体系结构,从最终用户的角度来看,它就像传统的文件系统一样,可以通过目录路径对文件执行CRUD(Create、Read、Update和Delete)操作。但由于分布式存储的性质,HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据,DataNode转载 2014-11-05 14:34:59 · 1130 阅读 · 0 评论 -
hadoop中槽-slot是线程还是进程讨论
hadoop一个节点默认起两个map slot,这两个slot是多线程吗?hadoop-0.21.0 源码中是这样的:首先看看 org.apache.hadoop.mapred.TaskTracker 类:=====================================================================================转载 2014-11-05 17:39:17 · 1002 阅读 · 0 评论 -
hadoop机架感知--加强集群稳固性,该如何配置hadoop机架感知
最新热门最新回复最新发表面试题项目区hadoop资源openstack资源新手指导环境搭建休闲阅读目hadoop疑问openstack疑问移动云百度云微软云 storm区CDH区hbase区pig区hive区sqoop区转载 2014-11-05 11:08:01 · 957 阅读 · 0 评论 -
InputFormat的数据划分、Split调度、数据读取三个问题的浅析
在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。先从一张经典的MapReduce工作流程图出发:1、运行mapred程序;2、本次运行将生转载 2014-11-05 21:28:44 · 879 阅读 · 0 评论 -
hadoop集群balance工具详解
在线上的hadoop集群运维过程中,hadoop 的balance工具通常用于平衡hadoop集群中各datanode中的文件块分布,以避免出现部分datanode磁盘占用率高的问题(这问题也很有可能导致该节点CPU使用率较其他服务器高)。 1) hadoop balance工具的用法:[html] view plaincopyTo start: bi原创 2014-09-28 11:42:41 · 1093 阅读 · 0 评论 -
hive中简单介绍分区表
hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。下面的语句创建了一个简单的分区表:create table partition_test(member_id string,name string)partition转载 2014-08-19 23:41:10 · 680 阅读 · 0 评论 -
Secondary NameNode:它究竟有什么作用?
前言最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为,Secondary NameNode是NameNode的备份,是为了防止NameNode的单点失败的,直到读了这篇文章Secondary Namenode - What it really do? (需翻墙)才发现并不是这样。文章写的很通俗易懂,现将其翻译如下:翻译 2014-06-16 14:14:34 · 84138 阅读 · 17 评论 -
Hadoop Hbase完全分布式环境搭建
Hadoop分布式环境搭建一、安装软件准备 由于资源限制,本文档的Hadoop的节点环境均部署在虚拟的linux上,使用的虚拟机和linux的版本如下:VMware-workstation-full-8.0.2-591240.exe[红帽企业.Linux.5].TLF-SOFT-RedHat.Enterprise.Linux.5.Update.2-XiSO.iso Hado原创 2014-06-11 15:44:08 · 3939 阅读 · 0 评论 -
如何使用Hadoop的ChainMapper和ChainReducer
Hadoop的MR作业支持链式处理,类似在一个生产牛奶的流水线上,每一个阶段都有特定的任务要处理,比如提供牛奶盒,装入牛奶,封盒,打印出厂日期,等等,通过这样进一步的分工,从而提高了生产效率,那么在我们的Hadoop的MapReduce中也是如此,支持链式的处理方式,这些Mapper像Linux管道一样,前一个Mapper的输出结果直接重定向到下一个Mapper的输入,形成一个流水线,而这一点与L转载 2014-06-28 23:25:38 · 1793 阅读 · 0 评论 -
Hadoop配置项整理(core-site.xml)
记录一下Hadoop的配置和说明,用到新的配置项会补充进来,不定期更新。以配置文件名划分以hadoop 1.x配置为例core-site.xml namevalue Description fs.default.namehdfs://hadoopmaster:9000定义HadoopMaster的URI和端口 fs.check转载 2014-06-24 10:47:44 · 3460 阅读 · 0 评论 -
Hadoop配置项整理(mapred-site.xml)
续上篇namevalueDescriptionhadoop.job.history.location job历史文件保存路径,无可配置参数,也不用写在配置文件里,默认在logs的history文件夹下。hadoop.job.history.user.location 用户历史文件存放位置io.sort.fa转载 2014-06-24 10:49:20 · 1857 阅读 · 0 评论 -
Hadoop集群安全性:Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode
正如大家所知,NameNode在Hadoop系统中存在单点故障问题,这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。1. Secondary NameNode原理:Secondary NN会定期的从NN中读取editlog,与自己存储的Image进行合并形成新的metadata image优点:Hadoop较早的版本都自带,转载 2014-11-05 17:40:31 · 2183 阅读 · 0 评论