hadoop安装

最新推荐文章于 2024-05-10 15:13:46 发布

dragon@oo

最新推荐文章于 2024-05-10 15:13:46 发布

阅读量460

点赞数

文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/ywlmsm1224811/article/details/114299158

版权

hadoop思想

分而治之
并行计算
计算向数据移动
数据本地化读取

模块

common：支持hadoop其他模块的公共工具
hdsf：分布式存储，相比于其他分布式文件系统设计思想是为了做计算使用
MapReduce：分布式计算
yarn：资源管理

hadoop安装

准备工作

1、设置主机名
vi /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=node01

2、设置本机的ip到主机名的映射关系
vi /etc/hosts
192.168.10.11 node01
192.168.10.12 node02
192.168.10.13 node03
192.168.10.14 node04

3、安装jdk并设置环境变量
yum -y install java-1.8.0-openjdk*

vi /etc/profile
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.275.b01-1.el8_3.x86_64
export PATH=$PATH:$JAVA_HOME/bin
source /etc/profile

4、关闭防火墙和selinux安全检查
service iptables stop
chkconfig iptables off

vi /etc/selinux/config
SELINUX=disabled

5、时间同步
yum install ntp -y
vi /etc/ntp.conf
server ntp1.aliyun.com
service ntpd start
chkconfig ntpd on

或者

yum install ntpdate -y
ntpdate ntp1.aliyun.com

6、ssh 免密登录
ssh localhost ： 1、验证自己还没免密 2、被动生成了 /root/.ssh 目录
A 免密登录 B
A：
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
ssh-copy-id -i ~/.ssh/id_dsa.pub 192.168.10.12 A 上的 id_dsa.pub 文件拷贝到 B 机器上
B： cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
chmod 600 authorized_keys

或者

ssh-keygen
ssh-copy-id -i /root/.ssh/id_rsa.pub node02(节点名称)

7、hadoop 安装
1）下载安装包：https://archive.apache.org/dist/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz
2）解压到/opt/bigdata 目录：tar xzf hadoop-3.2.2.tar.gz -C /opt/bigdata
3）配置环境变量：
vi /etc/profile
export HADOOP_HOME=/opt/bigdata/hadoop-3.2.2
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile
4）配置hadoop的角色：
必须给hadoop配置javahome要不ssh过去找不到
vi $HADOOP_HOME/etc/hadoop/hadoop-env.sh

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.275.b01-1.el8_3.x86_64
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
export HDFS_JOURNALNODE_USER=root
export HDFS_ZKFC_USER=root

给出NN角色在哪里启动

hadoop 伪分布式安装

在一个节点启动所有的角色：NN、DN、SNN
node01机器上完成准备工作1~7步骤
1）、etc/hadoop/core-site.xml 文件配置
NN 角色启动位置 fs.defaultFS
vi core-site.xml

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://node01:9000</value>
</property>

2）、etc/hadoop/hdfs-site.xml 文件配置
SNN 角色启动位置 dfs.namenode.secondary.http-address
vi hdfs-site.xml

<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>
<property>
    <name>dfs.namenode.name.dir</name>
    <value>/var/bigdata/hadoop/local/dfs/name</value>
</property>
<property>
    <name>dfs.datanode.data.dir</name>
    <value>/var/bigdata/hadoop/local/dfs/data</value>
</property>
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>node01:50090</value>
</property>
<property>
    <name>dfs.namenode.checkpoint.dir</name>
    <value>/var/bigdata/hadoop/local/dfs/secondary</value>
</property>

3）、配置DN这个角色再那里启动
vi workers
node01
4）、初始化并启动
hdfs namenode -format ：创建目录并初始化一个空的fsimage、VERSION、CID
start-dfs.sh ：第一次启动 datanode和secondary角色会初始化创建自己的数据目录
5）、命令操作
创建目录：hdfs dfs -mkdir -p /user/root
上传文件（可以设定block大小）：hdfs dfs -D dfs.blocksize=1048576 -put data.txt /user/root
数据目录：cd /var/bigdata/hadoop/local/dfs

hadoop 完全分布式安装

机器规划

	NN	SNN	DN
node01	*
node02		*
node03			*
node04			*

node01~node04 四台机器上分别完成准备工作1~7步骤
1）、etc/hadoop/core-site.xml 文件配置
vi core-site.xml

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://node01:9000</value>
</property>

2）、etc/hadoop/hdfs-site.xml 文件配置
vi hdfs-site.xml

<property>
    <name>dfs.replication</name>
    <value>2</value>
</property>
<property>
    <name>dfs.namenode.name.dir</name>
    <value>/var/bigdata/hadoop/full/dfs/name</value>
</property>
<property>
    <name>dfs.datanode.data.dir</name>
    <value>/var/bigdata/hadoop/full/dfs/data</value>
</property>
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>node02:50090</value>
</property>
<property>
    <name>dfs.namenode.checkpoint.dir</name>
    <value>/var/bigdata/hadoop/full/dfs/secondary</value>
</property>

3）、配置DN这个角色再那里启动
vi workers
node02
node03
node04
4）、将node01机器上的hadoop配置分发给 node02、node03、node04，即 scp -r /opt/bigdata/ node02:/opt/bigdata/
5）、初始化并启动
$HADOOP_HOME/bin/hdfs namenode -format ：创建目录并初始化一个空的fsimage、VERSION、CID
$HADOOP_HOME/sbin/start-dfs.sh ：第一次启动 datanode和secondary角色会初始化创建自己的数据目录
6）、命令操作
创建目录：hdfs dfs -mkdir -p /user/root
上传文件（可以设定block大小）：hdfs dfs -D dfs.blocksize=1048576 -put data.txt /user/root
数据目录：cd /var/bigdata/hadoop/full/dfs

hadoop 完全分布式和HA安装

机器规划

	NN	JN	ZKFC	ZK	DN
node01	*	*	*
node02	*	*	*	*	*
node03		*		*	*
node04				*	*

node02~node04 机器上安装zk集群并配置zk环境变量

node01~node04 四台机器上分别完成准备工作1~7步骤
1）、etc/hadoop/core-site.xml 文件配置
vi core-site.xml

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://mycluster</value>
</property>
<property>
    <name>ha.zookeeper.quorum</name>
    <value>node02:2181,node03:2181,node04:2181</value>
</property>

2）、etc/hadoop/hdfs-site.xml 文件配置
vi hdfs-site.xml

<!-- 副本以及nn dn 数据的存储目录，最后的名字 name 和 data 不能修改 -->
<property>
    <name>dfs.replication</name>
	<value>2</value>
</property>
<property>
	<name>dfs.namenode.name.dir</name>
	<value>/home/data/hadoop/dfs/name</value>
</property>
<property>
	<name>dfs.datanode.data.dir</name>
	<value>/home/data/hadoop/dfs/data</value>
</property>
<!-- 以下是一对多，逻辑到物理节点的映射 -->
<property>
    <name>dfs.nameservices</name>
    <value>mycluster</value>
</property>
<property>
    <name>dfs.ha.namenodes.mycluster</name>
    <value>nn1,nn2</value>
</property>
<property>
    <name>dfs.namenode.rpc-address.mycluster.nn1</name>
    <value>node01:8020</value>
</property>
<property>
    <name>dfs.namenode.rpc-address.mycluster.nn2</name>
    <value>node02:8020</value>
</property>
<property>
    <name>dfs.namenode.http-address.mycluster.nn1</name>
    <value>node01:50070</value>
</property>
<property>
    <name>dfs.namenode.http-address.mycluster.nn2</name>
    <value>node02:50070</value>
</property>

<!-- 以下是JN在哪里启动，数据存那个磁盘 -->
<property>
    <name>dfs.namenode.shared.edits.dir</name>
    <value>qjournal://node01:8485;node02:8485;node03:8485/mycluster</value>
</property>
<property>
    <name>dfs.journalnode.edits.dir</name>
    <value>/home/data/hadoop/dfs/jn</value>
</property>

<!-- HA角色切换的代理类和实现方法，我们用的ssh免密 -->
<property>
    <name>dfs.client.failover.proxy.provider.mycluster</name>
             
 <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
</property>
<property>
    <name>dfs.ha.fencing.methods</name>
    <value>sshfence</value>
</property>
<property>
    <name>dfs.ha.fencing.ssh.private-key-files</name>
    <value>/root/.ssh/id_rsa</value>
</property>

<!-- 开启自动化： 启动zkfc -->
<property>
    <name>dfs.ha.automatic-failover.enabled</name>
    <value>true</value>
</property>

3）、配置DN这个角色再那里启动
vi workers
node02
node03
node04
4）、将node01安装的hadoop以及配置分发给 node02、node03、node04
5）、初始化并启动
5.1）、先启动JN ： node01、node02、node03 上分别执行： $HADOOP_HOME/bin/hdfs --daemon start journalnode
5.2）、选择一个NN 做格式化（只有第一次搭建做，以后不用做）：$HADOOP_HOME/bin/hdfs namenode -format
5.3)、启动这个格式化的NN ，以备另外一台同步： $HADOOP_HOME/bin/hdfs --daemon start namenode
5.4)、在另外一台机器中： $HADOOP_HOME/bin/hdfs namenode -bootstrapStandby
5.5)、格式化zk（只有第一次搭建做，以后不用做）： $HADOOP_HOME/bin/hdfs zkfc -formatZK
5.6) 、$HADOOP_HOME/sbin/start-dfs.sh，命令执行后 nn、dn、jn、zkfc 角色全部会启动
6）、命令操作
创建目录：hdfs dfs -mkdir -p /user/root
上传文件（可以设定block大小）：hdfs dfs -D dfs.blocksize=1048576 -put data.txt /user/root
数据目录：cd /var/bigdata/hadoop/ha/dfs

hadoop 完全分布式、HA和yarn安装

机器规划

	NN	JN	ZKFC	ZK	DN	RM	NM
node01	*	*	*
node02	*	*	*	*	*		*
node03		*		*	*	*	*
node04				*	*	*	*

首先按照 hadoop 完全分布式和HA安装好之后，继续修改以下文件

1）、etc/hadoop/mapred-site.xml 文件配置

<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

2）、etc/hadoop/yarn-site.xml 文件配置

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.resourcemanager.ha.enabled</name>
    <value>true</value>
</property>
<property>
    <name>yarn.resourcemanager.zk-address</name>
    <value>node02:2181,node03:2181,node04:2181</value>
</property>
<property>
    <name>yarn.resourcemanager.cluster-id</name>
    <value>mycluster</value>
</property>
<property>
    <name>yarn.resourcemanager.ha.rm-ids</name>
    <value>rm1,rm2</value>
</property>
<property>
    <name>yarn.resourcemanager.hostname.rm1</name>
    <value>node03</value>
</property>
<property>
    <name>yarn.resourcemanager.hostname.rm2</name>
    <value>node04</value>
</property>

3）、将 mapred-site.xml 和 yarn-site.xml 分发给 node2~node04
4）、node01 上执行 $HADOOP_HOME/sbin/start-yarn.sh，ResourceManager 和 NodeManager 都会启动
5）、通过 http://node03:8088 访问

dragon@oo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop安装

hadoop思想分而治之并行计算计算向数据移动数据本地化读取模块common：支持hadoop其他模块的公共工具hdsf：分布式存储，相比于其他分布式文件系统设计思想是为了做计算使用MapReduce：分布式计算yarn：资源管理hadoop安装准备工作1、设置主机名vi/etc/sysconfig/networkNETWORKING=yesHOSTNAME=node012、设置本机的ip到主机名的映射关系vi /etc/hosts192.168.10...
复制链接

扫一扫