HADOOP
文章平均质量分 77
zhangxiong0301
这个作者很懒,什么都没留下…
展开
-
hadoop优化
hadoop优化优化主要有四个方面:linux系统环境优化、hadoop配置优化、应用程序优化和hadoop源代码优化。 一、hadoop源码角度系统优化这种优化主要是解决hadoop系统的现有缺陷和性能表现不佳的地方,包括工作流程和系统算法等方面的优化。1.单个task任务调度延迟的优化。Hadoop采用的是动态调度算法,即:当某个tasktracker上出现空slot时转载 2015-03-07 11:32:36 · 1109 阅读 · 0 评论 -
MAP运行过程
Anatomy of a MapReduce Job In MapReduce, a YARN application is called a Job. The implementation of the Application Master provided by the MapReduce framework is called MRAppMaster.Timeline of ...原创 2015-04-23 16:46:09 · 179 阅读 · 0 评论 -
MAP/REDUCE TASK作业状态转移图
Task Attempt Table of contents:Finite State MachineNEW => UNASSIGNED [TA_SCHEDULE]UNASSIGNED => ASSIGNED [TA_ASSIGNED]ASSIGNED => RUNNING [TA_CONTAINER_LAUNCHED]RUNNING =>...原创 2015-04-23 13:37:02 · 114 阅读 · 0 评论 -
YARN常见问题
本文汇总了几个hadoop yarn中常见问题以及解决方案,注意,本文介绍解决方案适用于hadoop 2.2.0以及以上版本。 (1) 默认情况下,各个节点的负载不均衡(任务数目不同),有的节点很多任务在跑,有的没有任务,怎样让各个节点任务数目尽可能均衡呢? 答: 默认情况下,资源调度器处于批调度模式下,即一个心跳会尽可能多的分配任务,这样,优先发送心跳过来的节点将会把任务领光(前提:任务数目...原创 2015-04-23 00:40:06 · 273 阅读 · 0 评论 -
转载--淘宝hadoop升级遇到的问题
搜索离线dump集群(hadoop&hbase)2013进行了几次重大升级: 2013-04 第一阶段,主要是升级hdfs为2.0版本,mapreduce仍旧是1.0;同时hbase也进行了一次重大升级(0.94.5版本),hive升级到0.9.0; 2013-09,2013-12 第二阶段,主要升级mapreduce到2.0版本即(YARN)...原创 2015-04-22 18:03:56 · 138 阅读 · 0 评论 -
mapreduce数据流配置
Hadoop配置文件设定了Hadoop平台运行时各方面属性。大量实验证明,合理的配置会大大提高Hadoop的性能。在Hadoop-0.19.2版本中,Hadoop配置文件在conf目录下,包括文件hadoop-default.xml和hadoop-site.xml,前者做了默认配置,不允许修改,用户需要配置时可以在后者中设置。Hadoop平台启动时首先加载hadoop-site.xml文件来配...原创 2015-04-15 21:15:48 · 150 阅读 · 0 评论 -
HADOOP2 yarn相关参数
注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患。另外,这些参数均需要在yarn-site.xml中配置。1. ResourceManager相关配置参数(1) yarn.resourcemanager.address参数解释:ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等。默认值:${ya...原创 2015-04-15 20:45:19 · 95 阅读 · 0 评论 -
HADOOP2 mapreduce配置(转)
MapReduce相关配置参数分为两部分,分别是JobHistory Server和应用程序参数,Job History可运行在一个独立节点上,而应用程序参数则可存放在mapred-site.xml中作为默认参数,也可以在提交应用程序时单独指定,注意,如果用户指定了参数,将覆盖掉默认参数。以下这些参数全部在mapred-site.xml中设置。1. MapReduce JobHis...原创 2015-04-15 20:42:36 · 156 阅读 · 0 评论 -
(转) hadoop2安装LZO
1.为什么使用lzo?2.如何安装配置lzo?3.如何使用lzo?Hadoop经常用于处理大量的数据,如果期间的输出数据、中间数据能压缩存储,对系统的I/O性能会有提升。综合考虑压缩、解压速度、是否支持split,目前lzo是最好的选择。LZO(LZO是Lempel-Ziv-Oberhumer的缩写)是一种高压缩比和解压速度极快的编码,它的特点是解压缩速度非常快,无损压缩,压缩后的数据能准确还原...原创 2015-04-04 15:00:44 · 108 阅读 · 0 评论 -
CDH对hadoop的一些配置指南,包括THP
Tips and Guidelines Selecting Appropriate JAR files for your MRv1 and YARN JobsEach implementation of the CDH4 MapReduce framework (MRv1 and YARN) consists of the artifacts (JAR files) that...原创 2015-04-28 17:16:19 · 264 阅读 · 0 评论 -
hadoop安全机制
1.背景1.1 共享Hadoop集群当前大一点的公司都采用了共享Hadoop集群的模式,这种模式可以减小维护成本,且避免数据过度冗余,增加硬件成本。共享Hadoop是指:(1)管理员把研发人员分成若干个队列,每个队列分配一定量的资源,每个用户或者用户组只能使用某个队列中得资源;(2)HDFS上存有各种数据,有公用的,有机密的,不同的用户可以访问不同的数据。共享集群类似于云计算或者云存...原创 2015-05-22 18:04:07 · 326 阅读 · 0 评论 -
HADOOP中mapreduce开启压缩功能
最近给热云公司共享数据,我们把原始数据给到他们,让他们做计算。每天同步一次,数据量压缩后10几个G,数据来自hive的mapreduce查询。通过insert overwrite local directory select语句将数据写入本地的NFS,然后对数据压缩,并在NFS的服务端机器提供文件下载功能。由于压缩前数据量太大,大概有90G左右。因...原创 2015-10-14 14:26:32 · 402 阅读 · 0 评论 -
HIVE跑mapjoin时所有任务失败--问题分析及解决
今天有个需求,就是:指定200W用户(表meids_tmp),把这些用户最近15天的应用使用数据(表tb_yl_upload_info,按天分区)转移到另外一张表中(表upload_info_sub,按天分区)。 很直观,meids_tmp表63M,可以使用map端连接;要求目标表数据按日期组织,自然想到动态分区,使数据插入时自动按日期写入。最终,得到...原创 2015-09-22 16:40:56 · 1681 阅读 · 1 评论 -
hadoop、hbase节点下线
hadoop节点在磁盘坏掉的时候需要节点下线,按照下线步骤操而不是直接kill,是为了让数据安全的转移。比如hbase的regionserver直接kill掉的话,如果运气再坏一点这个regionserver上刚好是root表或meta表所在的机器,那可能导致hbase集群不可用。 1. hbase regionserver下线 ...原创 2015-09-17 16:21:12 · 1088 阅读 · 0 评论 -
HADOOP序列化应该注意的问题
hadoop在序列化的时候,如果被序列化的BEAN里面含有其他对象如list等,一定要在readFields方法里面new出这个新对象。要不然由于序列化里数据重用的原因,会导致list被循环利用,从而使多个BEAN对象的list里面的元素叠加到一个BEAN里。例如: public class UserPortrait2RedisBean implements Writa...原创 2014-10-15 22:03:01 · 224 阅读 · 0 评论 -
hbase维护(转载)
一,基本命令: 建表:create 'testtable','coulmn1','coulmn2' 也可以建表时加coulmn的属性如:create 'testtable',{NAME => 'coulmn1', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS => '10', C...原创 2014-10-15 10:40:57 · 97 阅读 · 0 评论 -
YARN的一些常见错误
问题导读1、Hadoop YARN常见问题有哪些?2、你是如何解决这些问题的? 本文汇总了几个hadoop yarn中常见问题以及解决方案,注意,本文介绍解决方案适用于hadoop 2.2.0以及以上版本。 (1) 默认情况下,各个节点的负载不均衡(任务数目不同),有的节点很多任务在跑,有的没有任务,怎样让各个节点任务数目尽可能均衡呢? 答: 默认情况下,资源调度器处于批调度模式下,即一...原创 2015-06-12 13:58:12 · 903 阅读 · 0 评论 -
(转)hadoop yarn 内存相关配置
1.YARN中处理能力的基本单元是什么?2.什么是保留内存?3.4到8G Container建议多少M?在Hadoop2.0中, YARN负责管理MapReduce中的资源(内存, CPU等)并且将其打包成Container. 这样可以精简MapReduce, 使之专注于其擅长的数据处理任务, 将无需考虑资源调度. YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(...原创 2015-06-11 09:09:26 · 161 阅读 · 0 评论 -
HADOOP中设置map个数
很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的Mapper等于文件的数量(即每个文件都占据了一个block),那么很可能造成启动的Mapper数量超出限制...原创 2015-06-11 09:08:07 · 537 阅读 · 0 评论 -
(转)提高mapreduce性能的几点建议-cloudera
前言 Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”,对于不同的症状有不同的诊断和处理方式。 在医学领域,...原创 2015-04-04 14:55:14 · 134 阅读 · 0 评论 -
(转)YARN内存配置
问题导读1、Yarn对MRv1的改进有哪些?2、怎样对Yarn简单的内存配置?3、如何理解Yarn的资源抽象container?在这篇中,主要介绍了Yarn对MRv1的改进,以及Yarn简单的内存配置和Yarn的资源抽象container。我么知道MRv1存在的主要问题是:在运行时,JobTracker既负责资源管理又负责任务调度,这导致了它的扩展性、资源利用率低等问题。之所以存在这样的问题,是...原创 2015-04-04 11:01:20 · 119 阅读 · 0 评论 -
hadoop2.5.0-cdh5.3.0编译并导入eclipse java工程
记录一次编译hadoop2.5的源码并导入eclipse java 工程,采用的是cdh5.3.0版本的hadoop,操作环境是ubuntu14.10。具体步骤如下: 一、准备环境编译hadoop需要很多依赖环境,这可以在下载下来的hadoop文件夹下的src目录下察看BUILDING.txt文件里看到。该文件不但列出了依赖的工具和库,还有简单的编译步骤说明。在装完这些依赖环境后,别...原创 2015-02-03 16:43:27 · 138 阅读 · 0 评论 -
HADOOP OS部分优化
open file descriptors and files文件描述符是一个索引值,指向内核为每一个进程所维护的该进程打开文件的记录表。当程序打开一个现有文件或者创建一个新文件时,内核向进程返回一个文件描述符。在程序设计中,一些涉及底层的程序编写往往会围绕着文件描述符展开,文件描述符这一概念往往只适用于UNIX、Linux这样的操作系统。 在Linux系列的操作系统上,由于Lin...原创 2015-01-18 00:39:24 · 117 阅读 · 0 评论 -
HADOOP 机架感知
Hadoop性能优化:Hadoop机架感知实现及配置:分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机网口的限制,通常大型的分布式集群都会跨好几个机架,由多个机架上的机器共同组成一个分布式集群。机架内的机器之间的网络速度通常都会高于跨机架机器之间的网络速度,并且机架之间机器的网络通信通常受到上层交换机间网络带宽的限制。具体到Hadoop集群,由于Hadoop的HDFS对数据文件的分...原创 2015-01-18 00:04:31 · 104 阅读 · 0 评论 -
【转载】hive中map和reduce个数控制
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有...原创 2014-07-22 21:42:38 · 156 阅读 · 0 评论 -
hadoop+hbase+hive日常异常记录
1. 在hvie关联hbase创建外部表时报错: hive> CREATE EXTERNAL table dmp_user_register(key string,address string,gpsx string,gpsy string,loginid string,nettype string,runmode string,apkversion string,channel...原创 2015-01-12 14:37:37 · 171 阅读 · 0 评论 -
HIVE udf之 计算行号
package com.yulong.udf;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.hive.ql.udf.UDFType;@UDFType(deterministic = false)public class RowNum extends UDF{ private sta...原创 2014-12-23 15:35:20 · 229 阅读 · 0 评论 -
HBASE 预分区建表
在create一个表时如果不指定预分配region,则默认会先分配一个region,这样在大数据并行载入时性能比较低,因为所有的数据都往一个region灌入,容易引起单节点负载升高,从而影响入库性能,一个好的方法时在建立表时预先分配数个region。方法有两种,主要针对不同版本可供选择。1.使用RegionSplitter方法,主要针对hbase-0.90.X版本a.首先使用Reg...原创 2014-06-27 09:29:33 · 931 阅读 · 0 评论 -
HBASE批量数据导入
把MYSQL中的数据导入到hbase中,采用HBASE自带的BULK加载工具完成。过程分三步:1.从mysql中导出数据为CSV或TSV格式的文本文件2.利用importtsv工具转换Tsv文件为hbase的数据文件格式HFILE3.利用completeulkload加载上一步生成的hbase数据文件具体步骤:1.导数据:select concat(model,'_...原创 2014-06-26 17:19:09 · 261 阅读 · 0 评论 -
hbase结合hive和sqoop实现导数据到mysql
[size=large][b]hive整合hbase表的两点好处:[/b][/size][color=blue][size=medium][b] 1.实现数据导入到MYSQL。 2.实现hbase表转换为另外一张hbase表。[/b][/size][/color]三个操作环节: 1.hbase关联hive作为外部表:[code="sql"]CREATE E...原创 2014-08-21 18:07:27 · 184 阅读 · 0 评论 -
HADOOP SHUFFLE(转载)
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce,Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里我尽...原创 2014-08-22 18:01:41 · 67 阅读 · 0 评论 -
(转)HADOOP2.6基于标签的调度
在最新的hadoop 2.6.0版本中,YARN引入了一种新的调度策略:基于标签的调度机制。该机制的主要引入动机是更好地让YARN运行在异构集群中,进而更好地管理和调度混合类型的应用程序。注意,截止这篇文章发布时,只有apache hadoop 2.6.0和hdp 2.2两个发行版具有该特性(CDH5.3尚不支持,CDH5.4会支持),在hadoop自带的调度器重,只有 Capacity ...原创 2015-04-04 10:32:39 · 373 阅读 · 0 评论 -
HADOOP平台优化综述(转自董的博客)
1. 概述 随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要几个:(1) Namenode/jobtracker单点故障。 Hadoop采用的是mas...原创 2015-04-03 15:56:23 · 132 阅读 · 0 评论 -
hadoop ha 启停命令
一、关闭:1.stop-hbase.sh2.stop-yarn.sh3.stop-dfs.sh需要查看datanode,namenode,journalnode是否都关闭了。4.hadoop-deamon.sh stop zkfc(所有namenode节点)二、启动:1.启动zookeeper: zkServer.sh start2.建立zo...原创 2015-04-02 20:31:16 · 298 阅读 · 0 评论 -
hadoop知识点记录
问题一:No nodemanager to stopyarn-deamon.sh stop部分的脚本: Java代码 (stop) if [ -f $pid ]; then TARGET_PID=`cat $pid` if kill -0 $TARGET_PID > /dev/null 2>&1...原创 2015-04-02 17:03:09 · 150 阅读 · 0 评论 -
hadoop2.x配置jobHistory server(转)
Hadoop自带了一个历史服务器,可以通过历史服务器查看已经运行完的Mapreduce作业记录,比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。默认情况下,Hadoop历史服务器是没有启动的,我们可以通过下面的命令来启动Hadoop历史服务器$ sbin/mr-jobhistory-daemon.sh start historyserv...原创 2015-03-16 20:54:25 · 399 阅读 · 0 评论 -
yarn配置日志聚合
日志聚集是YARN提供的日志中央化管理功能,它能将运行完成的Container/任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个中央化存储和分析机制。默认情况下,Container/任务日志存在在各个NodeManager上,如果启用日志聚集功能需要额外的配置。 这个日志存储的就是具体map和reduce的日志,包括框架的和应用程序里自己打印的。这个日志聚...原创 2015-03-16 20:41:33 · 341 阅读 · 0 评论 -
hadoop1.0和hadoop2.0的区别
1. Hadoop 1.0中的资源管理方案Hadoop 1.0指的是版本为Apache Hadoop 0.20.x、1.x或者CDH3系列的Hadoop,内核主要由HDFS和MapReduce两个系统组成,其中,MapReduce是一个离线处理框架,由编程模型(新旧API)、运行时环境(JobTracker和TaskTracker)和数据处理引擎(MapTask和ReduceTask)...原创 2015-03-10 14:42:05 · 421 阅读 · 0 评论 -
HADOOP SPILL FAILED原因
跑mapreduce时候出现,java.io.IOException:spill failed。经过很久排查,发现是map端数据在溢写过程中出现空指针导致的。也就是我的map的输出keyvalue中的value是b一个bean,但是bean中有个字符串字段未被初始化,为空null。一般来说,出现溢写错误一般由以下两种原因造成:1.空指针2.磁盘空间不足...原创 2014-08-22 18:11:52 · 855 阅读 · 0 评论 -
HBASE 监控指标
原网址:[url]http://hbase.apache.org/book.html#hbase_metrics[/url]HBase emits metrics which adhere to the Hadoop metrics API. Starting with HBase 0.95[3], HBase is configured to emit a default set of ...原创 2014-12-13 11:49:57 · 1061 阅读 · 0 评论