hadoop集群搭建
hadoop简介
Hadoop 是apache旗下的一个用Java语言实现的开源的软件框架。
允许在简单的编程模型在大量的计算机集群上对大型数据集进行分布式处理。
Hadoop 的几个核心组件:
Hdfs : (分布式文件系统) 结局海量数据的存储。
Yarn:(作业调度和集群资源管理的框架): 解决资源任务调度。
Mapreduce ( 分布式运算编程框架) :解决海量数据的计算。
Hadoop 生态圈:
Hdfs : (分布式文件系统) 结局海量数据的存储。
Mapreduce ( 分布式运算编程框架) :解决海量数据的计算
Hive:基于Hadoop的分布式数据仓库,提供基于sql的查询数据操作。
Hbase:基于Hadoop的分布式海量数据库。
Zookeep:分布式协调服务基础组件。
Mahout:基于mapreduce/spark/flink等分布式运算框架的机械学习算法库。
Flume:日志数据采集框架。
Impala:基于Hadoop的实时分析。
Hadoop的特点:
扩容能力: Hadoop是在可用计算机集群中分配数据并完成计算任务的,可以扩展到数以千计的节点中。
成本低:Hadoop 只需要通过普通的机器组成服务器集群来分发以及处理数据即可。
高效率:通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。
可靠性:能自动维护数据的多分复制,并且在任务失败后能自动的重新部署计算任务。所以Hadoop按位存储和处理数据的能力值得人信赖。
Apache Hadoop 2.7.4
Hadoop集群一般来讲包含俩个集群:hdfs 集群和yarn集群,俩个逻辑上分离,但物理上常在一起。
Hdfs集群:负责海量数据的存储,主要角色有:namenode ,datanode,secondaryNameNode.
yarn集群:负责海量数据运算是的资源的调度, 主要角色有:
ResourceManager 、NodeManager
而mapreduce 主要是一个分布式运算框架,主要是打包后运行在hdfs集群上,并且受到yarn集群的资源管理调度。
Hadoop部署有三种方式:独立模式、伪分布式模式、集群模式。我们主要学的是集群模式。
hadoop 搭建前准备
Hadoop 开始安装:
前提步骤:
1.同步多台服务器时间。
date -s “2017-03-03 03:03:03”
或则同步网络时间: yum install ntpdate 然后 ntpdate cn.pool.ntp.org
2.设置主机名:
vi /etc/sysconfig/network
NETWORKI