
Hadoop
零度anngle
情商不是八面玲珑的圆滑,而是德行具足后的虚心、包容和自信;成熟不是单纯到复杂的世故,而是复杂回归简单的超然;觉悟不是对世事的无所谓,而是对无能为力之事的坦然接受;成功不是追求别人眼中的最好,而是把自己能做的事情做得最好。热爱生活,热爱编程,热爱Java,喜欢探索,纸上得来终觉浅,绝知此事要躬行,愿与你一起在技术的海洋中成长!
博客:http://blog.csdn.net/zmx729618
展开
-
MapReduce编程(入门篇)
一. MapReduce 编程模型还是以一个经典的图片来说明问题.1. 首先, 我们能确定我们有一份输入, 而且他的数据量会很大2. 通过split之后, 他变成了若干的分片, 每个分片交给一个Map处理3. map处理完后, tasktracker会把数据进行复制和排序, 然后通过输出的key 和value进行 partition的划分, 并把partit转载 2016-10-09 14:41:42 · 7593 阅读 · 0 评论 -
Hadoop回顾:(二)搭建5节点hadoop集群环境(CDH5)
提示:如果还不了解Hadoop的,可以下查看这篇文章Hadoop生态系统,通过这篇文章,我们可以首先大致了解Hadoop及Hadoop的生态系统中的工具的使用场景。搭建一个分布式的hadoop集群环境,下面是详细步骤,使用cdh5 。一、硬件准备基本配置:操作系统64位CPU(英特尔)Intel(R)转载 2017-11-14 14:45:07 · 787 阅读 · 0 评论 -
Hadoop回顾:(一)Hadoop生态系统简介
首先我们先了解一下Hadoop的起源。然后介绍一些关于Hadoop生态系统中的具体工具的使用方法。如:HDFS、MapReduce、Yarn、Zookeeper、Hive、HBase、Oozie、Mahout、Pig、Flume、Sqoop。Hadoop的起源Doug Cutting是Hadoop之父 ,起初他开创了一个开源软件Lucene(用Java语言编写,提供了全文检索引擎的架构,与转载 2017-11-14 14:09:20 · 4592 阅读 · 1 评论 -
MapReduce工作原理与开发实践
下面我一张图,便于理解MapReduce得整个工作原理下面对上面出现的一些名词进行介绍ResourceManager:是YARN资源控制框架的中心模块,负责集群中所有的资源的统一管理和分配。它接收来自NM(NodeManager)的汇报,建立AM,并将资源派送给AM(ApplicationMaster)。NodeManager:简称NM,NodeManager是转载 2017-06-22 09:45:33 · 675 阅读 · 0 评论 -
Hadoop2.X Yarn框架原理及运作机制
.1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。1转载 2017-06-16 09:25:19 · 4346 阅读 · 0 评论 -
Hadoop2.X及Spark 1.5.0集群搭建
主要内容操作系统环境准备Hadoop 2.4.1集群搭建Spark 1.5.0 集群部署注:在利用CentOS 6.5操作系统安装spark 1.5集群过程中,本人发现Hadoop 2.4.1集群可以顺利搭建,但在Spark 1.5.0集群启动时出现了问题(可能原因是64位操作系统原因,源码需要重新编译,但本人没经过测试),经本人测试在ubuntu 10.04 操作系统上可以顺利成功搭转载 2017-06-15 16:14:13 · 901 阅读 · 0 评论 -
Hadoop2.X架构浅析
Hadoop2.X核心包括两个module: HDFS – Hadoop File System。 YARN – Yet Another Resource Negotiator 也称为MapReduce2.0,即MPv2其中HDFS是底层的存储系统。不仅Hadoop的底层存储可以使用HDFS,其他分布式计算系统也可以使用HDFS作为底层存储系统。HDFS与在Hadoop1.0中有一些大转载 2017-05-31 10:49:20 · 3025 阅读 · 0 评论 -
Hadoop-MapReduce编程思想浅析
MapReduce其实是两个分离的阶段:map和reduce。首先看一个简单的例子: 现需要计算1w篇文章中字母‘w’的数量。这些文章以键值对(key/value)的形式存储(表一):DocumentID(key)DocumentContent(Value)1“This is an article”//假设这篇文章中含有“w”字母5个2转载 2017-05-31 10:45:19 · 930 阅读 · 0 评论 -
Hadoop1.X架构浅析
一、Hadoop架构 任何一个程序都可以被分为两个逻辑部分:程序逻辑本身和它操作的数据。数据本身需要大量的存储空间,而基于这些数据的计算或操作会消耗cpu,内存和存储空间。 因此Hadoop作为一个开源的分布式框架,自然需要考虑的也是两个方面:如何实现数据的分布data distribution,以及计算的分布computation distribution。hadoop使用了mast转载 2017-05-31 10:34:34 · 689 阅读 · 0 评论 -
Hadoop2 HDFS shell命令
Hadoop2 HDFS shell命令 1. hdfs dfs -appendToFile ... 可同时上传多个文件到HDFS里面 2. hdfs dfs -cat URI [URI ...] 查看文件内容 3. hdfs dfs -chgrp [-R] GROUP URI [URI ...] 修改文件所属组 4. hdfs df转载 2016-10-14 10:01:24 · 2107 阅读 · 0 评论 -
Win7上eclipse无插件提交Hadoop2.2分布式作业
一直以来,都以为,想在Win上提交hadoop集群的作业,必须得在eclipse上安装hadoop-eclipse-plugin插件才可以提交,但最近与同事交流,发现其实,不一定必须安装hadoop的eclipse插件,才能提交。今天试了一把,发现果然可以不用安装插件也可以正确提交作业到集群上,故在此总结一下。既然,无须安装hadoop的eclipse插件,就能提交hadoop作业转载 2016-10-13 17:40:03 · 644 阅读 · 0 评论 -
如何在Centos6.5下部署Hadoop2.2的完全分布式集群(三)
散仙在上篇文章中,已经讲述了部署Hadoop2.2伪分布式的步骤,那么今天,我们来看下,如何在Centos6.5下,部署完全分布式集群。下面先来看下具体的系统环境 序号名称描述1系统环境Centos6.5最好在linux上部署2Hadoop版本Hadoop2.2.0Hadoop2.x中的第一个稳定版本3JA转载 2016-10-13 17:18:57 · 393 阅读 · 0 评论 -
如何在CentOS6.5下编译64位的Hadoop2.x(一)
hadoop2.x在apache官网直接下载的并没有64位直接能用的版本,如果我们想在64位系统使用,那么就需要重新编译hadoop,否则直接使用32位的hadoop运行在64位的系统上,将会出现一些库不兼容的异常。如下图所示,最直接的一个异常:在这之前,先用一个表格来描述下散仙的编译的环境的状况: 序号描述备注1centos6.转载 2016-10-13 16:54:42 · 644 阅读 · 0 评论 -
如何在Centos6.5下部署hadoop2.2单机伪分布式(二)
hadoop2.x的稳定版本,已经发布多时了,散仙一直都用的hadoop1.x的版本,最近有项目用到hadoop2.x,所以就开始折腾hadoop2.x了,在hadoop2.x的版本里,目前最新版本已经到hadoop2.4了,但散仙在这里用的是hadoop2.2.0的版本,为什么用它? 因为这是一个稳定的版本,所以相对来说,问题比较少。散仙在上篇博客,已经讲了如何在编译hadoop2.2.转载 2016-10-13 17:07:13 · 454 阅读 · 0 评论 -
图解SSH无验证双向登陆配置
配置SSH无登陆验证,在很多场景下是非常方便的,尤其是在管理大型集群服务时,避免了繁琐的密码验证,在安全级别越高的服务器上,通常密码的设置更复杂,配置SSH,不仅可以用密钥保证节点间通信的安全性,同时也降低了频繁输入密码登陆的耗时,大大提高了管理效率。散仙写此篇文章,也是给准备入手Hadoop的道友们先做好一个基础的准备,当然你也可以不配置SSH,只要你愿意频繁输入Slave节点的密码来登陆。转载 2016-10-11 11:18:10 · 618 阅读 · 0 评论 -
配置Hadoop2.0HDFS的HA以及联邦使用QJM
HA和联邦解释 相比于Hadoop1.0,Hadoop 2.0中的HDFS增加了两个重大特性,HA和Federaion。HA即为High Availability,用于解决NameNode单点故障问题,该特性通过热备的方式为主NameNode提供一个备用者,一旦主NameNode出现故障,可以迅速切换至备NameNode,从而实现不间断对外提供服务。Federation即为“联邦转载 2016-10-09 15:16:13 · 2013 阅读 · 0 评论 -
win7+eclipse+hadoop2.5.2开发环境配置
一.hadoop集群环境配置 参考前一篇文章(hadoop2.5.2分布式环境配置 http://www.cnblogs.com/huligong1234/p/4136331.html)但本人配置时还修改了如下内容(由于你的环境和我的可能不一致,可以在后面出现相关问题后再进行修改): a.在master节点上(ubuntu-V01)修改hdfs-site.xml加上以转载 2016-10-09 15:02:00 · 584 阅读 · 0 评论 -
hadoop2.5.2分布式环境配置(无HA和联邦)
一、基础环境准备系统:(VirtualBox) ubuntu-12.04.2-desktop-i386.isohadoop版本:hadoop-2.5.2jdk版本:jdk-6u26-linux-i586.bin 1.三台测试集群,一个master(ubuntu-V01),两个slave(ubuntu-V02,ubuntu-V03)/etc/hosts192.168.1.转载 2016-10-09 14:55:59 · 550 阅读 · 0 评论 -
Hadoop回顾:(三) HBase详细概述
本文首先简单介绍了HBase,然后重点讲述了HBase的高并发和实时处理数据 、HBase数据模型、HBase物理存储、HBase系统架构,HBase调优、HBase Shell访问等。不过在此之前,你可以先了解 Hadoop生态系统 ,若想运行HBase,则需要先搭建好Hadoop集群环境,可以参考此文搭建5个节点的hadoop集群环境(CDH5) 。好了,让我们来学习HBase转载 2017-11-14 14:54:09 · 1008 阅读 · 0 评论