Hadoop
文章平均质量分 72
Wild_Elegance_k
这个作者很懒,什么都没留下…
展开
-
MapReduce实例解析
1、MapReduce理论简介 1.1 MapReduce编程模型MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTrac转载 2015-07-27 21:43:44 · 2734 阅读 · 0 评论 -
高阶MapReduce_4_reducer侧联结小案例
数据集文件:customers:1,Stephanie leung,555-555-5552,Edward Kim,123-456-78903,Jose Madriz,281-330-80044,David Stork,408-555-0000orders:3,A,12.95,02-Jun-20081,B,88.25,20-May-20082,C,32.00,30-Nov原创 2015-08-28 23:46:50 · 1019 阅读 · 0 评论 -
高阶MapReduce_3_reducer侧联结原理
侧联结原理:Map端工作:为来自不同表,也就是多个数据集的key/value对贴上一个标签,来区别不同数据源的记录。然后用链接字段作为kye,其余部分和新加的标志作为value,最后输出一个记录包。也就是说。,map端的工作就是做来源判断,并对符合key的值进行区分。Map端完成之后就是就将数据分组了。Reduce端工作:在reduce端以链接字段作为key的分组已经完成,我们只需要在原创 2015-08-28 23:38:38 · 1433 阅读 · 0 评论 -
Hadoop API的改变
在Hadoop 0.20版本之前,Hadoop 运用MapReduce 计算框架对数据进行统计时,都是讲Mapper 和Reducer 作为接口,用静态内部类实现Mapper 接口和Reducer 接口,分别重写map() 方法和reduce() 方法来做计算操作。 这下面是WordCount 的案例实现:import java.io.IOException;impo原创 2015-08-12 21:27:13 · 719 阅读 · 0 评论 -
HDFS原理及其操作
HDFS原理HDFS(Hadoop Distributed File System)是一个分布式文件系统,是谷歌的GFS山寨版本。它具有高容错性并提供了高吞吐量的数据访问,非常适合大规模数据集上的应用,它提供了一个高度容错性和高吞吐量的海量数据存储解决方案。高吞吐量访问:HDFS的每个Block分布在不同的Rack上,在用户访问时,HDFS会计算使用最近和访问量最小的服务器给用户提原创 2015-08-12 12:05:13 · 785 阅读 · 0 评论 -
Hadoop--MapReduce运行处理流程
1. Hadoop 编程读写HDFS:Hadoop文件API起点:FileSystem.通过调用factory方法FileSystem.get(Configuration conf)来的到FileSystem实例.具体写法:Configuration conf = new Configuration();FileSystem hdfs = FileSystem.get(conf原创 2015-07-30 23:00:06 · 1092 阅读 · 0 评论 -
高阶MapReduce_2_链接多个MapReduce作业实例
这篇博客是一个链接多个MapReduce作业的小案例,接下来就来看看具体是怎么是怎么实现的:首先,本次的小案例操作了两个数据文件,分别是:input1:2012-3-1 a2012-3-2 b2012-3-3 c2012-3-4 d2012-3-5 a2012-3-6 b2012-3-7 c2012-3-3 cinput2:2012-3-1 b2012-原创 2015-08-26 20:22:32 · 1505 阅读 · 0 评论 -
MapReduce 工作机制剖析
MapReduce工作机制剖析:1. 在集群中的任意一个节点提交MapReduce程序;2. JobClient收到作业后,JobClient向JobTracker请求获取一个Job ID;3. 将运行作业所需要的资源文件复制到HDFS上(包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入划分信息),这些文件都存放在JobTracker专原创 2015-08-10 22:39:57 · 986 阅读 · 0 评论 -
Hadoop集群搭建
今天我在自己的机器上,通过多个虚拟机系统,来搭建hadoop伪集群环境。 一、下面就先来说一下搭建hadoop集群环境所需要做的准备工作:首先,我用的是VMware Workstation11,所使用的虚拟机系统为ubuntukylin-15.04-desktop-amd64系统,然后用到的是 jdk-7u79-linux-x64hadoop所使用的版本为:ha原创 2015-07-29 13:19:04 · 522 阅读 · 0 评论 -
Python编写Hadoop MapReduce程序
adoop 的 MapReduce 程序,使用的是 Java ,但是使用 Java 很明显的一个弊端就是每次都要编码、打包、上传、执行,还真心是麻烦,想要更加简单的使用 Hadoop 的运算能力,想要写 MapReduce程序不那么复杂。还真是个问题。仔细考虑了下,python刚好切合这个需求,随便搜了下 Python 编写 MapReduce程序,看了个教程,接下来就写下这篇博客做下记录原创 2015-08-23 22:33:49 · 2726 阅读 · 0 评论 -
高阶MapReduce_1_链接多个MapReduce作业
链接MapReduce作业1. 顺序链接MapReduce作业顺序链接MapReduce作业就是将多个MapReduce作业作为生成的一个自动化执行序列,将上一个MapReduce作业的输出作为下一个MapReduce作业的输入。MapReduce作业的链接就类似于Unix 的管道:mapreduce – 1 | mapreduce – 2 | mapreduce – 3 |原创 2015-08-23 22:22:34 · 1405 阅读 · 0 评论 -
HDFS优缺点
HDFS优点:1. 高容错性。a) 数据自动保存多个副本b) 副本丢失后,自动恢复2. 适合批处理a) 移动计算而非移动数据b) 数据位置暴露给计算框架3. 适合大数据处理a) GB、TB、甚至PB级数据b) 百万规模以上的文件数量c) 10K + 节点原创 2015-08-15 23:51:47 · 6772 阅读 · 0 评论