NameNode HA 采用方案

原文:http://yanbohappy.sinaapp.com/?p=50 Hadoop的设计初衷是服务于off-line的数据存储和处理应用。随着这个产品的不断成熟和发展,对于支持on-line应用的需求越来越强烈。例如HBase已经被Facebook和淘宝用到了在线存储应用...

2012-07-27 13:20:09

阅读数:12171

评论数:1

NameNode federation

原链:http://blog.csdn.net/azhao_dn/article/details/7480201 从0.23.0开始,Hadoop开始支持分布式NameNode,通过NameNode federation的形式实现。这样实现了NameNode的横向扩展,使得Hadoop集...

2012-07-27 13:13:07

阅读数:8118

评论数:0

hbase应用优化相关

转载自:http://www.cnblogs.com/panfeng412/archive/2012/03/08/hbase-performance-tuning-section1.html 本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBas...

2012-07-13 10:41:03

阅读数:6232

评论数:0

HBase存储架构

原文:http://www.blogjava.net/hengheng123456789/archive/2010/12/31/342074.html 英文原文:http://www.larsgeorge.com/2009/10/hbase-architecture-101-storage....

2012-07-11 22:22:11

阅读数:6051

评论数:0

hadoop出现元数据不能更新且SNN合并失效

问题表现: NameNode 保存edits文件 停留在5.3号凌晨。SNN执行合并文件报 空指针错误,导致无法正常合并元数据 原因:要弄清原因首先需要清楚SNN合并流程,NN写editslog流程等等。简单说来如下: 1 在5.3号 SNN合并文件后并成功将合并的数据pu...

2012-05-09 18:26:16

阅读数:1903

评论数:0

hadoop metrics 各参数解释

研究使用hadoop的人 对hadoop中详细的计数器有所了解,但是很多人在想完全清楚所有metrics时 发愁找不到资料。而且在代码中查找时介绍也比较少。先罗列出所有。 dfs.datanode.blockChecksumOp_avg_time 块校验平均时间 dfs.datanode....

2012-04-06 16:49:04

阅读数:5541

评论数:2

rpm安装和卸载脚本的工作原理[重点关注]

http://www.ibm.com/developerworks/cn/linux/management/package/rpm/part3/ 安装和卸载脚本的工作原理 安装和卸载脚本看起来很简单,但它们工作原理中的一些意外可能会引起大问题。

2011-10-12 15:02:41

阅读数:1201

评论数:0

SO_SNDBUF and SO_RECVBUF

参见 http://stackoverflow.com/questions/4257410/what-are-so-sndbuf-and-so-recvbuf The "SO_" prefix is for "socket option", so ...

2014-08-27 15:35:14

阅读数:6311

评论数:0

使用hive 对lzo数据分析时的报错

之前建立map作业 将文本文件通过combineInputFormat 合并 小文件并压缩为lzo文件 ,作业设置: conf.setInt("mapred.min.split.size", 1);         conf.setLong("m...

2014-03-03 18:07:56

阅读数:9069

评论数:0

Hadoop MultiOutputs 实现

工作中有人问 MultiOutputs 实现为啥在指定reduce数为1时  结果文件数依然是 好多个?这其实由其实现逻辑决定的。 在MR中 一般job都可以通过map reduce 默认的OutputCollector 实现 写入作业初始化时指定格式的输出中,只能一个文件格式。当需要将...

2014-02-24 14:14:06

阅读数:7187

评论数:1

cdh4.2 在mac OS X10.9.1下编译

编译  hadoop-2.0.0-cdh4.2 下载 tar 包 http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH-Version-and-Packaging-Information...

2014-01-15 18:47:44

阅读数:8391

评论数:0

Java的类加载器简述

类加载器是java设计中一项创新,独立于JVM之外,类如何加载可以由JVM外部实现。如早期的Applets,曾经大红的OSGI等。 类加载器就是加载类的。一个jvm中可以存在若干个类加载器。相同的字节码因为类加载器不同,产生的实例肯定不同,即用instanceof 或者equal,isIns...

2013-08-31 12:18:49

阅读数:6266

评论数:0

为多租户场景集群配置Impala和Mapreduce

原文标题:Configuring Impala and MapReduce for Multi-tenant Performance(http://blog.cloudera.com/blog/2013/06/configuring-impala-and-mapreduce-for-multi-t...

2013-08-10 11:18:39

阅读数:11620

评论数:1

Hive SQL解析/执行计划生成流程分析

Hive SQL解析/执行计划生成流程分析 近在研究Impala,还是先回顾下Hive的SQL执行流程吧。 Hive有三种用户接口: cli (Command line interface) bin/hive或bin/hive –service cli ...

2013-06-18 17:36:10

阅读数:12648

评论数:1

如何使用vagrant在虚拟机安装hadoop集群

原文地址:http://blog.cloudera.com/blog/2013/04/how-to-use-vagrant-to-set-up-a-virtual-hadoop-cluster/ vagrant 是一个非常好用的工具,可以用它来在单台物理机器编程管理多个虚拟机(vms)。其支持原...

2013-04-14 09:11:56

阅读数:11139

评论数:1

关于hadoop mapreduce的job cleanup阶段

近段时间发现好多分析的mr作业延迟1个小时到2个小时,其实那个作业平时可能会只需要20分钟。分析作业状态发现延迟是在job的cleanup阶段。        近段时间由于用户的增长及数据的持续飙升,集群作业越来越多,每个作业占用槽位也不断增长,导致集群槽位紧张,所以集群出现排队现象本来运算正常...

2013-03-29 18:33:36

阅读数:10322

评论数:2

hive sequencefile 和rcfile 效率对比

源数据放在test1表中,大小 26413896039 Byte。 创建sequencefile 压缩表test2,使用insert  overwrite table test2 select ...语句将test1数据导入 test2 ,设置配置项: set hive.exec.co...

2012-09-17 17:32:14

阅读数:10523

评论数:0

Google Dremel 原理 - 如何能3秒分析1PB

原链:http://www.yankay.com/google-dremel-rationale/ 简介 Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapR...

2012-08-24 13:29:45

阅读数:5340

评论数:0

hadoop默认参数

1       常用的端口配置 1.1  HDFS端口   参数 描述 默认 配置文件 例子值 fs.default.name namenode namenode RPC交互端...

2012-08-14 18:47:08

阅读数:13081

评论数:0

大整数乘法算法

一 转换为二进制求,推导出的公式适合十进制计算 设X和Y都是n位的二进制整数,现在要计算它们的乘积XY。我们可以用小学所学的方法来设计一个计算乘积XY的算法,但是这样做计算步骤太多,显得效率较低。如果将每2个1位数的乘法或加法看作一步运算,那么这种方法要作O(n2)步运算才能求出乘积XY。下面我...

2012-07-11 23:38:34

阅读数:19148

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭