![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
---畅行天下---
为了心中的梦想,奋斗吧
展开
-
单机模式:在Ubuntu上安装Hadoop
Hadoop是一个用Java编写的用于运行与物理集群中的框架,吸收了GFS和mapreduce编程模型的特性。Hadoop的HDFS是一个高容错的分布式文件系统,并且它被设计运行于低成本的硬件上,能够提供很大的数据吞吐量,很适合那些数据量很大的应用程序。 接下来,开始准备安装hadoop。我用的操作系统是 ubuntu 12.10 server,hadoop的版本是1.2.0。...原创 2013-06-27 22:03:14 · 126 阅读 · 0 评论 -
集群模式:在Ubuntu上安装Hadoop
在安装好单机模式的hadoop之后,我们就可以着手来在集群模式下安装hadoop了。在安装了单机版hadoop的机器上将hadoop转成集群模式是很容易的。首先来设置网络。网络 首先,我们需要在同一个网络的几台机器(这里用的是192.168.0.0/24网段)。然后为了操作方便,我们需要给它们配上域名,直接在 /etc/hosts 文件里面加入以下内容。...原创 2013-06-27 22:11:45 · 87 阅读 · 0 评论 -
MapReduce中的Shuffle和Sort分析
MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP,Scheme,ML 等。MapReduce 框架的核心步骤主要分两部分:Map 和Reduce。当你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任务,然后分...原创 2013-07-03 12:22:50 · 94 阅读 · 0 评论 -
Hadoop简介
Hadoop是Apache 下的一个项目,由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中,HDFS 和MapReduce 是两个最基础最重要的成员。 HDFS是Google GFS 的开源版本,一个高度容错的分布式文件系统,它能够提供高吞吐量的数据访问,适合存储海量(PB 级)的大文件(通常超过64M),其原理如下图所...原创 2013-07-03 12:28:37 · 133 阅读 · 0 评论 -
hadoop 学习笔记:mapreduce框架详解【转载】
转载自:http://www.cnblogs.com/sharpxiajun/p/3151395.html#2749490开始聊mapreduce,mapreduce是hadoop的计算框架,我学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什...原创 2013-08-22 15:11:48 · 104 阅读 · 0 评论