- 博客(11)
- 资源 (13)
- 收藏
- 关注
原创 hadoop作业调优参数整理及原理
http://blog.csdn.net/christophe2008/article/details/7196806 1 Map side tuning参数 1.1 MapTask运行内部原理 当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,
2012-08-29 22:19:36 764
原创 hbase的内容查询
http://abloz.com/2012/08/22/hbase-how-like-the-sql-like-query-value-as.html 一、shell 查询 hbase 查询相当简单,提供了get和scan两种方式,也不存在多表联合查询的问题。复杂查询需通过hive创建相应外部表,用sql语句自动生成mapreduce进行。 但是这种简单,有时为了达到目的,也不是那么
2012-08-28 19:48:14 31214
原创 源hbase集群中复制出HBase
一、从源hbase集群中复制出HBase数据库表到本地目录 http://abloz.com/2012/08/14/another-method-of-the-data-of-the-hbase-cross-cluster-replication.html 最好停止HBase,否则可能会丢部分数据 [hbase@hadoop200 ~]$ hadoop fs -get /hbase/to
2012-08-28 19:47:25 6150 1
原创 hadoop一些常用命令
假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。 启动与关闭 启动Hadoop 1. 进入HADOOP_HOME目录。 2. 执行sh bin/start-all.sh 关闭Hadoop 1. 进入HADOOP_HOME目录。 2. 执行sh bin/stop-all.sh 文件
2012-08-23 11:13:53 6542
原创 hadoop hbase logs目录下日志越来越多,写个简单的脚本备份删除一下
#!/bin/sh #backup hadoop&hbase logs which are 30 days ago, and delete them cd /work/hadoop-0.20.203.0/logs today=`date +%Y-%m-%d` find . -mtime +30 -print > /tmp/hadooplogslist-$today if
2012-08-23 10:26:05 4585
原创 HBase之旅四:HBase MapReduce实例分析(转自:Taobao QA Team)
引言 跟Hadoop的无缝集成使得使用MapReduce对HBase的数据进行分布式计算非常方便,本文将以前面的blog示例,介绍HBase下MapReduce开发要点。很好理解本文前提是你对Hadoop MapReduce有一定的了解,如果你是初次接触Hadoop MapReduce编程,可以参考http://qa.taobao.com/?p=10523 这篇文章来建立基本概念。 HBase
2012-08-22 22:26:24 972
原创 Job的任务执行流程之Reduce阶段
http://blog.csdn.net/xhh198781/article/details/7412663 JobTracker节点在给每一个TaskTracker节点分配作业的Map/Reduce任务时,可能会根据该TaskTracker节点的实际情况分配多个Map任务,但确顶多只分配一个Reduce任务,尽管此时该TaskTracker节点还有多的Reduce Slot(也就是说Tas
2012-08-22 14:15:13 1720
原创 Hadoop使用常见问题以及解决方法(转载)
http://www.cnblogs.com/luwikes/archive/2011/11/03/2234739.html 1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer: 程序 里面需要打开多个文件 ,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是
2012-08-22 11:33:17 2600 1
原创 linux下eclipse上运行hadoop自带wordcount程序
Hadoop wordcounteclipsehadooplinux Eclipse 开发Hadoop 下载hadoop-eclipse-plugin-0.20.3-SNAPSHOT.jar https://issues.apache.org/jira/secure/attachment/12460491/hadoop-eclipse-plugin-0.20.3-S
2012-08-22 10:45:35 3140
原创 如何让UE不生成.bak文件
看到后面加个.bak后缀的文件有时真的很烦,而且还容易搞混,下面的方法可以解除这种烦恼。版本不同可以会有些差别。 英文版按照如下顺序设置: Menu: Advanced --> Confiugration --> File Handling --> Backup --> Select No Backup option 中文版按照如下顺序设置: 高级--> 配置 --> 文件处理 -
2012-08-14 10:18:11 9702 2
原创 HBASE SHELL 常用命令 .
说明:新版hbase取消了对HQL的支持,只能使用shell 命令:disable 'tableName' --disable表。注:修改表结构时,必须要先disable表。 命令:enable 'tableName' --使表可用 命令:drop 'tableName' --删除表 HBase基本命令 下面我们再看看看HBase的一些基本操作命令
2012-08-02 14:45:46 574
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人