![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 67
我爱大海V5
从事互联网工作
展开
-
Hadoop作业提交分析(五)
http://www.cnblogs.com/spork/archive/2010/04/21/1717592.html#2817963经过上一篇的分析,我们知道了Hadoop的作业提交目标是Cluster还是Local,与conf文件夹内的配置文件参数有着密切关系,不仅如此,其它的很多类都跟conf有关,所以提交作业时切记把conf放到你的classpath中。 因转载 2013-11-21 14:48:46 · 844 阅读 · 0 评论 -
Hadoop MapReduce两种常见的容错场景分析
本文将分析Hadoop MapReduce(包括MRv1和MRv2)的两种常见的容错场景,第一种是,作业的某个任务阻塞了,长时间占用资源不释放,如何处理?另外一种是,作业的Map Task全部运行完成后,在Reduce Task运行过程中,某个Map Task所在节点挂了,或者某个Map Task结果存放磁盘损坏了,该如何处理?第一种场景:作业的某个任务阻塞了,长时间占用资源不转载 2014-02-10 14:45:24 · 649 阅读 · 0 评论 -
下一代 Hadoop YARN 简介:相比于MRv1,YARN的优势
http://my.oschina.net/leejun2005/blog/97802最近一段时间,经常看到有人在微博上说,“很多公司暂时用不到YARN,因为一般公司的集群规模并未像Yahoo、Facebook那样达到几千台,甚至将来几万台”。这完全是一种错误的观念,在Hadoop高速发展的时代,必须更正。实际上,上述观念只看到了YARN的扩展性(Scalability转载 2014-02-10 15:04:12 · 826 阅读 · 0 评论 -
Hadoop YARN常见问题以及解决方案
本文汇总了几个hadoop yarn中常见问题以及解决方案,注意,本文介绍解决方案适用于hadoop 2.2.0以及以上版本。(1) 默认情况下,各个节点的负载不均衡(任务数目不同),有的节点很多任务在跑,有的没有任务,怎样让各个节点任务数目尽可能均衡呢?答: 默认情况下,资源调度器处于批调度模式下,即一个心跳会尽可能多的分配任务,这样,优先发送心跳过来的节点将会把任务领光转载 2014-02-10 14:46:31 · 1734 阅读 · 0 评论 -
Hadoop YARN 基本架构和发展趋势
这是我在数盟上分享的一个topic,介绍了hadoop yarn的产生背景、基本架构、运行在yarn上的计算框架(包括MapReduce、Tez、Storm、Spark等)和发展趋势,该PPT可看做hadoop 2.o新书《Hadoop技术内幕:深入解析YARN架构设计与实现原理》的精简介绍,PPT下载地址如下:(1)Hadoop基本架构和发展趋势 百度网盘下载(2)Hadoop基转载 2014-02-10 14:47:59 · 1047 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/?cmp=dwskl&cpb=dw&ct=dwcon&cr=cn_swb&ccy=cn简介: 本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架(Yarn) 原理,优势,运作机制和配置方法等;着重介绍新的 yarn转载 2014-02-10 16:14:14 · 668 阅读 · 0 评论 -
HDFS 原理、架构与特性介绍
http://my.oschina.net/leejun2005/blog/151872本文主要讲述 HDFS原理-架构、副本机制、HDFS负载均衡、机架感知、健壮性、文件删除恢复机制1:当前HDFS架构详尽分析 HDFS架构 •NameNode •DataNode •Sencondary NameNode 数据存储细节转载 2014-02-26 15:12:27 · 835 阅读 · 0 评论 -
深入理解Hadoop集群和网络
http://my.oschina.net/leejun2005/blog/75941摘要:本文将着重于讨论Hadoop集群的体系结构和方法,及它如何涉及到网络和服务器基础设施。开始我们先学习一下Hadoop集群运作的基础。导读:云计算和Hadoop中网络是讨论得相对比较少的领域。本文原文由Dell企业技术专家Brad Hedlund撰写,他曾在思科工作多年,专转载 2014-02-26 15:18:22 · 1143 阅读 · 0 评论 -
MapReduce直接连接Mysql获取数据
Mysql中数据: Sql代码 mysql> select * from lxw_tbls; +---------------------+----------------+ | TBL_NAME | TBL_TYPE | +---------------------+----------------+转载 2014-02-27 09:32:55 · 2497 阅读 · 2 评论 -
hadoop 作业调优参数整理及原理
1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存buffer(MapOutpu转载 2014-03-03 16:10:14 · 607 阅读 · 0 评论 -
MapReduce 中的两表 join 几种方案简介
1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File转载 2014-03-06 12:04:29 · 688 阅读 · 0 评论 -
hadoop join之semi join
SemiJoin,也叫半连接,是从分布式数据库中借鉴过来的方法。它的产生动机是:对于reduce side join,跨机器的数据传输量非常大,这成了join操作的一个瓶颈,如果能够在map端过滤掉不会参加join操作的数据,则可以大大节省网络IO。实现方法很简单:选取一个小表,假设是File1,将其参与join的key抽取出来,保存到文件File3中,File3文件一般很小,可以放到内存中。在m转载 2014-03-06 13:18:53 · 771 阅读 · 0 评论 -
Hadoop资源感知调度器简介
先来几个名词解释:hadoop:apache基金会的开源分布式计算平台。 MapReduce :hadoop的分布式计算模型,由map任务和reduce任务组成。Jobtracker :hadoop计算系统的总控。Tasktracker :hadoop计算系统的子节点。 Slot(槽位) :tasktracker的最小计算分配单元,一个槽位可以对应一个m转载 2014-03-06 10:58:38 · 1185 阅读 · 0 评论 -
Pig、Hive、MapReduce 解决分组 Top K 问题
问题:有如下数据文件 city.txt (id, city, value)cat city.txt 1 wh 5002 bj 6003 wh 1004 sh 4005 wh 2006 bj 1007 sh 2008 bj 3009 sh 900需要按 city 分组聚合,然后从每组数据中取出前两条value最大的记录。1、这是实际业务转载 2014-03-06 14:26:13 · 722 阅读 · 0 评论 -
十分钟掌握 MapReduce 的精髓
微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software“,预言OO之后软件开发将要面临的又一次重大变革-并行计算。 摩尔定律统制下的软件开发时代有一个非常有意思的现象:”Andy giveth, and转载 2014-03-06 10:32:12 · 680 阅读 · 0 评论 -
Hadoop中shuffle阶段流程分析
宏观上,Hadoop每个作业要经历两个阶段:Map phase和reduce phase。对于Map phase,又主要包含四个子阶段:从磁盘上读数据-》执行map函数-》combine结果-》将结果写到本地磁盘上;对于reduce phase,同样包含四个子阶段:从各个map task上读相应的数据(shuffle)-》sort-》执行reduce函数-》将结果写到HDFS中。Hadoo转载 2014-03-06 14:15:16 · 667 阅读 · 0 评论 -
Hadoop学习笔记—20.网站日志分析项目案例(一)项目介绍
网站日志分析项目案例(一)项目介绍:当前页面网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html网站日志分析项目案例(三)统计分析:http://www.cnblogs.com/edisonchou/p/4464349.html一、项目背景与数据情况1.1 项目来源 本次要实践的数转载 2017-07-25 10:50:12 · 601 阅读 · 0 评论 -
Hadoop学习笔记—20.网站日志分析项目案例(二)数据清洗
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:当前页面网站日志分析项目案例(三)统计分析:http://www.cnblogs.com/edisonchou/p/4464349.html一、数据情况分析1.1 数据情况回顾 该论坛数据有两部分:转载 2017-07-25 10:53:44 · 693 阅读 · 0 评论 -
Hadoop日志到底存在哪里?
http://dongxicheng.org/mapreduce-nextgen/hadoop-logs-placement/初学者运行MapReduce作业时,经常会遇到各种错误,由于缺乏经验,往往不知所云,一般直接将终端打印的错误贴到搜索引擎上查找,以借鉴前人的经验。然而,对于hadoop而言,当遇到错误时,第一时间应是查看日志,日志里通产会有详细的错误原因提示,本文将总结Hadoop转载 2014-02-10 14:44:09 · 1377 阅读 · 0 评论 -
hadoop DistributedCache的使用
Configuration conf = new Configuration();DistributedCache.createSymlink(conf);DistributedCache.addCacheFile(new URI("/user/root/input/testFile#testFile"), conf);//可以用testFile代替前面的文件原创 2013-12-18 17:14:07 · 727 阅读 · 0 评论 -
Hadoop权限管理
1. 介绍本文介绍的Hadoop权限管理包括以下几个模块:(1) 用户分组管理。用于按组为单位组织管理,某个用户只能向固定分组中提交作业,只能使用固定分组中配置的资源;同时可以限制每个用户提交的作业数,使用的资源量等(2) 作业管理。包括作业提交权限控制,作业运行状态查看权限控制等。如:可限定可提交作业的用户;可限定可查看作业运行状态的用户;可限定普通用户只能修改自转载 2013-12-18 10:17:19 · 672 阅读 · 0 评论 -
Hadoop作业提交分析(三)
http://www.cnblogs.com/spork/archive/2010/04/12/1710294.html 通过前面两篇文章的分析,对Hadoop的作业提交流程基本明了了,下面我们就可以开始编写代码模拟这个流程。 第一步要做的是添加Hadoop的依赖库和配置文件到classpath。最常用的方法就是用一个容器先把各个要添加到classpath的文件或文件转载 2013-11-21 14:27:20 · 775 阅读 · 0 评论 -
Hadoop作业提交分析(四)
http://www.cnblogs.com/spork/archive/2010/04/21/1717552.html 前面我们所分析的部分其实只是Hadoop作业提交的前奏曲,真正的作业提交代码是在MR程序的main里,RunJar在最后会动态调用这个main,在(二)里有说明。我们下面要做的就是要比RunJar更进一步,让作业提交能在编码时就可实现,就像Hadoop转载 2013-11-21 14:30:15 · 937 阅读 · 0 评论 -
Hadoop作业提交分析(一)
http://www.cnblogs.com/spork/archive/2010/04/07/1706162.htmlbin/hadoop jar xxx.jar mainclass args…… 这样的命令,各位玩Hadoop的估计已经调用过NN次了,每次写好一个Project或对Project做修改后,都必须打个Jar包,然后再用上面的命令提交到Hado转载 2013-11-21 14:16:06 · 852 阅读 · 0 评论 -
Hadoop作业提交分析(二)
http://www.cnblogs.com/spork/archive/2010/04/11/1709380.html 上一篇我们分析了bin/hadoop脚本,知道了提交一个Hadoop作业所需要的基本设置以及真正执行任务提交的类。这一篇我们就来分析这个提交任务的类org.apache.hadoop.util.RunJar,看它内部具体又做了些什么。 Run转载 2013-11-21 14:25:37 · 776 阅读 · 0 评论 -
HBase MapReduce Examples
7.2. HBase MapReduce Examples7.2.1. HBase MapReduce Read ExampleThe following is an example of using HBase as a MapReduce source in read-only manner. Specifically, there is a转载 2013-11-26 17:05:37 · 833 阅读 · 0 评论 -
Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集【Updating】 (转)
目录[-](一)hadoop 相关安装部署(二)hive(三)pig(四)hadoop原理与编码(五)数据仓库与挖掘(六)Oozie工作流(七)HBase(八)flume(九)sqoop(十)ZooKeeper(十一)NOSQL(十二)Hadoop 监控与管理(十三)Storm(十四)YARN & Hadoop 2.0附:原创 2013-12-06 14:28:22 · 1981 阅读 · 0 评论 -
Hadoop分块与分片
HDFS存储系统中,引入了文件系统的分块概念(block),块是存储的最小单位,HDFS定义其大小为64MB。与单磁盘文件系统相似,存储在 HDFS上的文件均存储为多个块,不同的是,如果某文件大小没有到达64MB,该文件也不会占据整个块空间。在分布式的HDFS集群上,Hadoop系统 保证一个块存储在一个datanode上。 当我们执行hadoop fs -put aa.tx转载 2013-12-03 10:34:54 · 1775 阅读 · 0 评论 -
HBase Java API详解
增加一个64M的文件,直到总文件数超过由“hbase.hstore.compactionThreshold”指定的数量时(默认为3),compaction过程就将被触发了。在上述值为3时,此时该region目录下,实际文件数只有两个,还有额外的一个正处于内存中将要被刷入到磁盘的过程中。Compaction过程是Hbase的一个大动转载 2013-12-03 11:32:17 · 727 阅读 · 0 评论 -
自己收集的比较好的hadoop博客
http://www.cnblogs.com/spork/archive/2010/04/21/1717552.htmlhttp://www.superwu.cn/http://dongxicheng.org/about/http://blog.csdn.net/joe_007/article/details/7720930http://blog.csdn.net/piratele原创 2013-12-02 13:25:08 · 1514 阅读 · 0 评论 -
Hadoop 中利用 mapreduce 读写 mysql 数据
有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv、uv 数据,然后为了实时查询的需求,或者一些 OLAP 的需求,我们需要 mapreduce 与 mysql 进行数据的交互,而这些特性正是 hbase 或者 hive 目前亟待改进的地方。好了言归正传,简单的说说背景、原理以及需要注意的地方:1、为了方便 MapReduce 直接访问关系型数据库(Mysql转载 2013-12-04 17:54:46 · 747 阅读 · 0 评论 -
MapReduce直接连接Mysql获取数据 (新API写法)
创建表:DROP TABLE IF EXISTS `sqooptest`.`lxw_tabls`;CREATE TABLE `sqooptest`.`lxw_tabls` (`TBL_NAME` varchar(20) default NULL,`TBL_TYPE` varchar(20) default NULL) ENGINE=InnoDB DEFAULT CHARSET=utf8原创 2013-12-04 18:09:43 · 1635 阅读 · 0 评论 -
Hadoop源代码分析(一)总括
Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。 GoogleCluster: http://research.google.com/archive/googlecluster.html Chubby:http://labs.google.com/papers/chubby.html GFS:http://labs.google.c转载 2013-12-05 09:31:17 · 664 阅读 · 0 评论 -
Hadoop源代码分析(二)包的功能分析
下面给出了Hadoop的包的功能分析。 PackageDependencestool提供一些命令行工具,如DistCp,archivemapreduceHadoop的Map/Reduce实现filecache提供HDFS文件的本地缓存,用于转载 2013-12-05 09:33:01 · 687 阅读 · 0 评论 -
MapReduce中的自定义多目录/文件名输出HDFS
最近考虑到这样一个需求:需要把原始的日志文件用hadoop做清洗后,按业务线输出到不同的目录下去,以供不同的部门业务线使用。这个需求需要用到MultipleOutputFormat和MultipleOutputs来实现自定义多目录、文件的输出。需要注意的是,在hadoop 0.21.x之前和之后的使用方式是不一样的:hadoop 0.21 之前的API 中有 org转载 2013-12-05 11:10:37 · 1005 阅读 · 0 评论 -
hadoop文件输出控制,多路径输出到不同文件
hadoop的map和reduce的输出路径是通过两个函数设定:FileInputFormat.setInputPaths(job, args[0]);FileOutputFormat.setOutputPath(job, new Path(args[1]));然后,用context类型对象,通过write(key,value)完成输出。现在我需要实现将key和valu转载 2013-12-05 11:23:52 · 3742 阅读 · 0 评论 -
Hadoop 源代码分析(三)对象序列化
由于Hadoop 的MapReduce 和HDFS 都有通信的需求,需要对通信的对象进行序列化。Hadoop 并没有采用Java 的序列化,而是引入了它自己的系统。org.apache.hadoop.io 中定义了大量的可序列化对象,他们都实现了Writable 接口。实现了Writable 接口的一个典型例子如下:Java 代码1. public clas转载 2013-12-05 09:45:44 · 730 阅读 · 0 评论 -
自定义 hadoop MapReduce InputFormat 切分输入文件
在上一篇中,我们实现了按 cookieId 和 time 进行二次排序,现在又有新问题:假如我需要按 cookieId 和 cookieId&time 的组合进行分析呢?此时最好的办法是自定义 InputFormat,让 mapreduce 一次读取一个 cookieId 下的所有记录,然后再按 time 进行切分 session,逻辑伪码如下:for OneSplit in MyIn转载 2013-12-16 18:28:47 · 1040 阅读 · 0 评论 -
Hadoop学习笔记—20.网站日志分析项目案例(三)统计分析
网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html网站日志分析项目案例(三)统计分析:当前页面一、借助Hive进行统计1.1 准备工作:建立分区表 为了转载 2017-07-25 11:07:09 · 748 阅读 · 0 评论