Distributed System
文章平均质量分 83
教练_我要踢球
好好想一下,认真码代码~
展开
-
MapReduce执行流程之我见
我们都知道Hadoop主要用于离线计算,它由两部分构成:HDFS和MapReduce,其中HDFS负责文件的存储,MapReduce负责对数据的计算,在执行MapReduce程序的时候。需要制定输入的文件uri、输出的文件uri。一般情况下这两个地址都是存放在HDFS上的。MapReduce计算过程又分成两个阶段:map阶段和reduce阶段,其中map阶段是负责将输入文件进行划分,划分的结果是一原创 2015-01-26 17:36:01 · 3682 阅读 · 0 评论 -
工作流调度器Azkaban学习
1、Azkaban是什么 我们在工作中应该都遇到过这样的场景:有一个任务,这个任务可以划分成多个较小的任务完成,之所以进行划分是因为小任务之间可以并发的进行,例如是一个shell脚本执行的命令吧,大任务A可以划分成B、C、D、E四个子任务(脚本)完成,而B和C是可以同时进行的,D依赖B和C的输出,E又依赖D的输出,于是我们一般的做法可能就是开两个终端同时执行B和C,等两个都原创 2015-01-23 17:57:22 · 10045 阅读 · 0 评论 -
HDFS安装、配置以及基本使用
HDFS是一个分布式文件系统,安装完成之后使用起来类似于本地文件系统,但是它是一个网络文件系统,所以访问这种文件系统的方式和访问本地文件系统的方式还是有所差别的(本地文件系统的方式是基于系统调用的,当然也有类似NFS这样的网络文件系统可以使用和本地文件系统相同的访问方式,那是因为已经在内核中安装了NFS,而HDFS只是一个应用层的服务程序罢了)。但是这些命令看上去还是和常用的shell命令很类似的原创 2015-01-16 18:33:14 · 11149 阅读 · 0 评论 -
Hadoop单机伪分布式部署
由于没有那么多机器,就在自己的虚拟机上部署一套hadoop集群,这被称作伪分布式集群,但是不管怎么样,这里主要记录部署hadoop的过程以及遇到的问题,然后再使用一个简单的程序测试环境。1、安装JAVA、下载hadoop程序包,配置hadoop的环境变量。 这里要设置JAVA_HOME为java的安装目录,将hadoop程序所在的目录添加到系统的PATH环境变量下,这样可以直接在s原创 2015-01-20 14:10:53 · 1558 阅读 · 0 评论 -
获取原生mapreduce程序、sqoop、hive提交的jobId
项目中需要获取sqoop、hive和mapreduce程序提交到hadoop集群的jobId,以此来跟踪执行的状态,经过对这几种方式提交命令的调研,追踪了部分源代码,得到了一些获取这三种提交到hadoop的jobId的方案。原创 2015-02-28 14:30:25 · 7059 阅读 · 1 评论 -
Sqoop导入数据到Hadoop代理执行
在项目中遇到的一些问题,当我们需要使用sqoop在关系数据库与HDFS、Hive之间导入/导出数据时候遇到的一些问题,如何让sqoop支持自主研发的不能够支持全部jdbc接口数据库的导入导出,分析sqoop源码寻找解决方案。原创 2015-04-13 19:59:01 · 4585 阅读 · 0 评论