大数据笔记 4(hadoop环境搭建)
Hadoop运行环境搭建(开发重点)
一、虚拟机环境准备
1、克隆虚拟机(三台及以上)
可以在vm里面直接进行克隆,注意要是完全克隆。
2、修改克隆虚拟机的静态IP
在这里面找到自己的名字,我的是ifcfg-ens33
然后进入vi编辑器,这里面可以设置网络的所有配置:IP、网关、DNS等
3、修改主机名
vi /etc/hostname
直接设置名字就行。
4、关闭防火墙(可以设置启动关闭防火墙或者每次关闭【不推荐这种做法】)
这里关闭防火墙有很多方式,有些是安装centos7虚拟机图形界面的,所有可以使用菜单方式进行设置;我是安装的是代码的方式。所有我的所有设置都是代码。关闭防火墙可以根据自己所安装的linux系统进行设置,也可以使用百度一下,看看其他大佬怎么设置的。嘻嘻
首先使用systemctl status firewalld.service
命令查收是防火墙是什么状态;
如果是active(running)
就是说明防火墙是在运行状态;
然后使用systemctl stop firewalld.service
就可以关闭防火墙
5、配置免密登陆
这个例子就可以看出,我们使用ssh + IP或者主机名
就行跳转到另外一个linux系统,可以不用输入密码。下面我就给大家说一下怎么设置的吧!!!
① 免密登陆的原理
② 生成公钥和私钥
ssh-keygen -t rsa
然后敲四次回车,其他步骤不管直接敲四次就行。我linux系统是centos7的所有敲四次,centos6好像只需要敲三次。这个根据提示步骤而言。
然后就会生成两个文件id-rsa(私钥)和 id_rsa.pub(公钥)
③ 将公钥拷贝到要免密登陆的目标机器上
ssh-copy-id 主机名或者IP
然后另外几台也是一样的步骤,先生成公钥然后拷贝到需要免密登陆的机器上,我这里配置的是三台机子,所有我配置的三次。
④ .ssh文件夹下(~/.ssh)的文件功能解释
名字 | 作用*解释 |
---|---|
known_hosts | 记录ssh访问过计算机的公钥(public key) |
id_rsa | 生成的私钥 |
id_rsa.pub | 生成的公钥 |
authorized_keys | 存放授权过得无密登录服务器公钥 |
– | – |
二、环境的配置
2.1 JDK和HADOOP的安装配置
在整个系列的开始就配置了jdk和hadoop,三台都需要配置并且测试成功。也可以使用负责的方法,先给第一台配置好所有然后在复制、方法很多根据自己的方式来更容易上手。(大家需要jdk1.8、hadoop2.7.3的文件可以私信我)
JDK配置
https://blog.csdn.net/weixin_45844252/article/details/112723083
HADOOP配置
https://blog.csdn.net/weixin_45844252/article/details/113094229
HADOOP下载
https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/
2.2 HADOOP集群的配置
配置目前需要以下配置
这里面是所有的hadoop都配置文件
以下的所有配置都是在这个路径下进行的配置。
2.2.1 核心配置文件
core-site.xml
vi core-site.xml
加入以下代码
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop102:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>
2.2.2 hdfs配置文件
hadoop-env.sh
[atguigu@hadoop102 hadoop]$ vi hadoop-env.sh
export JAVA_HOME=/opt/app/jdk1.8 //这里加入自己的jdk路径
hdfs-site.xml
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop104:50090</value>
</property>
2.2.3 yarn配置文件
yarn-env.sh
[atguigu@hadoop102 hadoop]$ vi yarn-env.sh
export JAVA_HOME=/opt/app/jdk1.8 //这里也是配置自己jdk的路径
yarn-site.xml
<!-- Reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop103</value>
</property>
2.2.4 mapreduce配置文件
mapred-env.sh
[atguigu@hadoop102 hadoop]$ vi mapred-env.sh
export JAVA_HOME=/opt/app/jdk1.8 //这里依然是自己的jdk路径
mapred-env.xml
<!-- 指定MR运行在Yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
2.2.5 slaves配置
到这里整个集群的所需配置文件就完全配置好了。
三、测试启动
在hadoop2.7.3的目录下进行启动
sbin/start-all.sh
等待启动
然后在windows下百度的地址栏输入:自己配置的IP:50070
出现这样的界面就说明我们集群配置好了。
续更
下期我们更新–大数据技术之Hadoop(HDFS)这就算我们开始学习hadoop了。