大数据02---Hadoop集群环境搭建

一、修改Hostname

命令:[root@hadoop01 ~] vi /etc/sysconfig/network

 打开文件后,(每个虚拟机主机名不同)


NETWORKING=yes  #使用网络
HOSTNAME=hadoop01  #设置主机名

1.赋予虚拟机ip地址

根目录下 执行命令: vi reset_ip.sh 

me=$(cat /etc/udev/rules.d/70-persistent-net.rules |grep -oP '(?<=NAME=").*(?=")'|tail -1)
mac=$(cat /etc/udev/rules.d/70-persistent-net.rules |grep -oP '(?<=ATTR{address}==").*?(?=",)'|tail -1)
sed -i s/DEVICE.*/DEVICE=${name}/ /etc/sysconfig/network-scripts/ifcfg-eth0
sed -i s/HWADDR=.*/HWADDR=${mac}/ /etc/sysconfig/network-scripts/ifcfg-eth0
service network restart

 

改变该文件执行权限 chmod u+x  reset_ip.sh

运行文件 reset_ip.sh 

若不行修改  /etc/sysconfig/network-scripts下的ifcfg-eth0文件  

三、配置Host(关联主机名和ip地址 每个虚拟机的关联都要有)

命令:[root@hadoop01 ~] vi /etc/hosts
添加hosts: 192.168.126.129 hadoop01

 四、关闭防火墙

检查防火墙状态

[root@hadoop01 ~]# service iptables status

 关闭防火墙

[root@hadoop01 ~]# chkconfig iptables off

命令: reboot重启虚拟机 

五、安装jdk

(1)使用winsp将jdk1.8保存到 linux   /opt/modules/jdk1.8.tar.gz

[root@hadoop01 /]# tar -zxvf jdk-8u172-linux-x64.tar.gz -C /opt/modules

(2)添加环境变量

设置JDK的环境变量 JAVA_HOME。需要修改配置文件/etc/profile,追加

export JAVA_HOME="/opt/modules/jdk1.7.0_67"
export PATH=$JAVA_HOME/bin:$PATH

修改完毕后,执行 source /etc/profile

(3)安装后再次执行 java –version 查看安装状态

六、Hadoop部署

1.Hadoop部署模式

Hadoop部署模式有:本地模式、伪分布模式、完全分布式模式。
区分的依据是NameNode、DataNode、ResourceManager、NodeManager等模块运行在几个JVM进程、几个机器。

模式名称各个模块占用的JVM进程数各个模块运行在几个机器数上
本地模式1个1个
伪分布式模式N个1个
完全分布式模式N个N个

2.配置Hadoop

2.1 配置Hadoop环境变量

[root@hadoop01 ~]# vi /etc/profile

执行:source /etc/profile 使得配置生效

验证HADOOP_HOME参数:

[root@hadoop01 /]$ echo $HADOOP_HOME
/opt/modules/hadoop-2.5.0

2.2 配置 hadoop-env.sh、mapred-env.sh、yarn-env.sh文件的JAVA_HOME参数

[root@hadoop01 ~]$ sudo vi  ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh
修改JAVA_HOME参数为:
export JAVA_HOME="/opt/modules/jdk1.7.0_67"

2.3 配置core-site.xml

(1)创建目录:

[root@hadoop01 ~]$ mkdir -p /opt/modules/app/hadoop/data/tmp

[hadoop@bigdata-senior01 ~]  vi  {HADOOP_HOME}/etc/hadoop/core-site.xml

(2) fs.defaultFS参数配置的是HDFS的地址。

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop01:8020</value>
</property>
<property>
   <name>hadoop.tmp.dir</name>
    <value>/opt/modules/app/hadoop/data/tmp</value>
</property>

2.4 配置hdfs-site.xml

[root@hadoop01 ~]$ vi /opt/modules/app/hadoop/etc/hadoop/hdfs-site.xml
<configuration>
 <property>
   <name>dfs.namenode.secondary.http-address</name>
   <value>hadoop03:50090</value>
 </property>
</configuration>

2.5 配置slaves

[root@hadoop01 ~]$ vi etc/hadoop/slaves
hadoop01
hadoop02
hadoop03

slaves文件是指定HDFS上有哪些DataNode节点。

2.6 配置yarn-site.xml

[hadoop@bigdata-senior01 hadoop-2.5.0]$ vim etc/hadoop/yarn-site.xml
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop02</value>
    </property>
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>106800</value>
    </property>

根据规划yarn.resourcemanager.hostname这个指定resourcemanager服务器指向bigdata-senior02.chybinmy.com。

yarn.log-aggregation-enable是配置是否启用日志聚集功能。

yarn.log-aggregation.retain-seconds是配置聚集的日志在HDFS上最多保存多长时间。

2.7 配置mapred-site.xml

从mapred-site.xml.template复制一个mapred-site.xml文件。

[hadoop@bigdata-senior01 hadoop-2.5.0]$ cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>bigdata-senior01.chybinmy.com:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>bigdata-senior01.chybinmy.com:19888</value>
    </property>
</configuration>

mapreduce.framework.name设置mapreduce任务运行在yarn上。

mapreduce.jobhistory.address是设置mapreduce的历史服务器安装在BigData01机器上。

mapreduce.jobhistory.webapp.address是设置历史服务器的web页面地址和端口号。
 

3 设置SSH无密码登录

3.1在hadoop01上生成公钥

ssh-keygen -t rsa

3.2下载服务器客户端

yum -y install openssh-server openssh-clients

 3.3 分发公钥

[root@hadoop01 ~]$ ssh-copy-id hadoop01
[root@hadoop01 ~]$ ssh-copy-id hadoop02
[root@hadoop01 ~]$ ssh-copy-id hadoop03

3.4 设置hadoop02、hadoop03到其他机器的无密钥登录

同样的在hadoop02、hadoop03上生成公钥和私钥后,将公钥分发到三台机器上。

3.5 在其他两台机器上创建存放Hadoop的目录 并将hadoop01 的Hadoop目录下所有文件拷贝到app下

[hadoop@bigdata-senior02 ~]$ mkdir /opt/modules/app
[hadoop@bigdata-senior03 ~]$ mkdir /opt/modules/app

4 格式NameNode

在NameNode机器上执行格式化:

[root@hadoop01 ~]$ /opt/modules/app/hadoop/bin/hdfs namenode –format

注意:

如果需要重新格式化NameNode,需要先将原来NameNode和DataNode下的文件全部删除,不然会报错,NameNode和DataNode所在目录是在core-site.xml中hadoop.tmp.dir、dfs.namenode.name.dir、dfs.datanode.data.dir属性配置的。

<property>
     <name>hadoop.tmp.dir</name>
     <value>/opt/data/tmp</value>
  </property>
<property>
     <name>dfs.namenode.name.dir</name>
     <value>file://${hadoop.tmp.dir}/dfs/name</value>
  </property>
<property>
     <name>dfs.datanode.data.dir</name>
     <value>file://${hadoop.tmp.dir}/dfs/data</value>
  </property>

因为每次格式化,默认是创建一个集群ID,并写入NameNode和DataNode的VERSION文件中(VERSION文件所在目录为dfs/name/current 和 dfs/data/current),重新格式化时,默认会生成一个新的集群ID,如果不删除原来的目录,会导致namenode中的VERSION文件中是新的集群ID,而DataNode中是旧的集群ID,不一致时会报错。

另一种方法是格式化时指定集群ID参数,指定为旧的集群ID。

5 启动集群

关闭集群 把start 转换成 stop

5.1 启动HDFS(namenode datanode secondarynamenode)

[root@hadoop01 ~]$ start-dfs.sh

 

5.2 启动YARN(resourcemanager nodemanager)

[root@hadoop02]$ start-yarn.sh

5.3  启动日志服务器(historyserver)

因为我们规划的是在BigData03服务器上运行MapReduce日志服务,所以要在BigData03上启动。

[root@hadoop01 ~]$ mr-jobhistory-daemon.sh start historyserver
 

执行命令 jps 查看进程 

[hadoop@bigdata-senior03 ~]$ jps
3570 Jps
3537 JobHistoryServer
3310 SecondaryNameNode
3213 DataNode
3392 NodeManager

5.4 查看HDFS Web页面

http://bigdata-senior01.chybinmy.com:50070/

5.5 查看YARN Web 页面

http://bigdata-senior02.chybinmy.com:8088/cluster

6 测试Job

我们这里用hadoop自带的wordcount例子来在本地模式下测试跑mapreduce。

6.1 准备mapreduce输入文件wc.input

[root@hadoop01 ~]$ cat /opt/data/wc.input
hadoop mapreduce hive
hbase spark storm
sqoop hadoop hive
spark hadoop

6.2 在HDFS创建输入目录input

[root@hadoop01 ~]$ bin/hdfs dfs -mkdir /input

6.3 将wc.input上传到HDFS

[root@hadoop01 ~]$ bin/hdfs dfs -put /opt/data/wc.input /input/wc.input

6.4 运行hadoop自带的mapreduce Demo

[root@hadoop01 ~]$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /input/wc.input /output

6.5 查看输出文件

[root@hadoop01 ~]$ bin/hdfs dfs -ls /output
Found 2 items
-rw-r--r--   3 hadoop supergroup          0 2016-07-14 16:36 /output/_SUCCESS
-rw-r--r--   3 hadoop supergroup         60 2016-07-14 16:36 /output/part-r-00000

七、hadoop的shell命令

1、文件上传 -put

[root@mini3 ~]# echo duanchangrenzaitianya > cangmumayi.avi
//将cangmumayi.avi上传到hdfs文件系统的根目录下
[root@mini3 ~]# hadoop fs -put cangmumayi.avi /
 

hadoop是表示hadoop操作,fs表示hdfs,后面与linux命令差不多,会多出”-“。
注:上传的时候会根据配置

<property>
<name>dfs.replication</name>
<value>2</value>
</property>

来备份2份,存放在指定的工作目录下/root/hadoop/hdpdata(名称会变,藏的也很深)

<property>
指定进行工作的数据目录
<name>hadoop.tmp.dir</name>
<value>/root/hadoop/hdpdata</value>
</property>

比如我这里是三台进行集群,其中两个是datanode,那么在这两台都进行了备份,如果是三台datanode,那么其中有两台备份另外一台没有。
可以去页面查看

这里写图片描述

2、下载 -get

[root@mini3 ~]# rm -r cangmumayi.avi 
rm:是否删除普通文件 "cangmumayi.avi"?yes
[root@mini3 ~]# ll
总用量 60
-rw-------. 1 root root  1131 9月   6 19:41 anaconda-ks.cfg
drwxr-xr-x. 4 root root  4096 9月  30 21:55 apps
drwxr-xr-x. 3 root root  4096 10月  1 19:29 hadoop
-rw-r--r--. 1 root root 12526 9月   6 19:41 install.log
-rw-r--r--. 1 root root  3482 9月   6 19:41 install.log.syslog
drwxr-xr-x. 2 root root  4096 9月  12 21:06 mini1
drwxr-xr-x. 3 root root  4096 9月  24 06:26 zkdata
-rw-r--r--. 1 root root 19113 9月  23 18:33 zookeeper.out
[root@mini3 ~]# hadoop fs -get /cangmumayi.avi
[root@mini3 ~]# ll
总用量 64
-rw-------. 1 root root  1131 9月   6 19:41 anaconda-ks.cfg
drwxr-xr-x. 4 root root  4096 9月  30 21:55 apps
-rw-r--r--. 1 root root    22 10月  3 21:21 cangmumayi.avi
drwxr-xr-x. 3 root root  4096 10月  1 19:29 hadoop
-rw-r--r--. 1 root root 12526 9月   6 19:41 install.log
-rw-r--r--. 1 root root  3482 9月   6 19:41 install.log.syslog
drwxr-xr-x. 2 root root  4096 9月  12 21:06 mini1
drwxr-xr-x. 3 root root  4096 9月  24 06:26 zkdata
-rw-r--r--. 1 root root 19113 9月  23 18:33 zookeeper.out
 

3、查看文件内容 -cat

[root@mini3 ~]# hadoop fs -cat /cangmumayi.avi
duanchangrenzaitianya
 

注:(1)HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M。
比如:我上传了一个hadoop(>128M)到hdfs中,假设有三个datanode,那么文件会切分为2个文件,存到其中两个hadoop的工作的数据目录中,假设编号分别为100026,100027,由于备份是2,那么同时第三个的工作数据目录中会存在100026,100027两个文件。但是下载的时候会自动给我们拼出来而不用我们收到去拼完整。
4、查看目录信息 -ls

[root@mini3 ~]# hadoop fs -ls /
-rw-r--r--   2 root       supergroup         22 2017-10-03 21:12 /cangmumayi.avi
 

5、创建文件夹 -mkdir

[root@mini3~]# hadoop fs -mkdir -p /wordcount/input(-p表示创建多级目录),页面查看可以看到多了个文件夹

6、从本地剪切到hdfs -moveFromLocal

[root@mini3 ~]# hadoop fs -moveFromLocal a.txt /
[root@mini3 ~]# hadoop fs -ls /
-rwxrwxrwx   3 root       supergroup         85 2017-10-02 19:45 /a.txt
-rw-r--r--   2 root       supergroup         22 2017-10-03 21:12 /cangmumayi.avi

7、追加一个文件内容到已经存在的文件末尾 -appendToFile

[root@mini3 ~]# echo xxxxoooooxxoo > xxoo.txt
[root@mini3 ~]# hadoop fs -appendToFile xxoo.txt /a.txt
[root@mini3 ~]# hadoop fs -cat  /a.txt
xiaoyu is a god
xiaoyu is beautiful
xioayu is my zhinv
xiaonv is smart
xxxxoooooxxoo

8、改权限和改组 -chgrp,-chmod,-chown

[root@mini2 ~]# hadoop fs -chmod 777 /a.txt
[root@mini2 ~]# hadoop fs -ls /
-rwxrwxrwx   2 root supergroup         85 2017-10-02 19:45 /a.txt
-rw-r--r--   2 root supergroup          7 2017-10-01 20:22 /canglaoshi_wuma.avi
drwx------   - root supergroup          0 2017-10-01 23:36 /tmp
drwxr-xr-x   - root supergroup          0 2017-10-02 19:31 /wordcount
[root@mini2 ~]# hadoop fs -chown angelababy:mygirls /canglaoshi_wuma.avi
[root@mini2 ~]# hadoop fs -ls /
-rwxrwxrwx   2 root       supergroup         85 2017-10-02 19:45 /a.txt
-rw-r--r--   2 angelababy mygirls             7 2017-10-01 20:22 /canglaoshi_wuma.avi
drwx------   - root       supergroup          0 2017-10-01 23:36 /tmp
drwxr-xr-x   - root       supergroup          0 2017-10-02 19:31 /wordcount
hdfs弱的权限控制不会管权限是否合法的

9、合并下载多个文件 -getmerge,/wordcount/input文件夹下有a.txt和b.txt文件

[root@mini2 ~]# hadoop fs -getmerge '/wordcount/input/*.*' merg.file
[root@mini2 ~]# ll
总用量 17352
-rw-------. 1 root root     1131 9月  12 03:59 anaconda-ks.cfg
drwxr-xr-x. 4 root root     4096 9月  30 21:55 apps
-rw-r--r--. 1 root root       71 10月  1 21:01 b.tx
-rw-r--r--. 1 root root        7 10月  1 20:20 canglaoshi_wuma.avi
drwxr-xr-x. 3 root root     4096 10月  1 19:26 hadoop
-rw-r--r--. 1 root root    12526 9月  12 03:59 install.log
-rw-r--r--. 1 root root     3482 9月  12 03:59 install.log.syslog
-rw-r--r--. 1 root root      142 10月  2 19:57 merg.file
-rw-r--r--. 1 root root       14 10月  2 19:45 xxoo.txt
drwxr-xr-x. 3 root root     4096 9月  12 19:31 zkdata
-rw-r--r--. 1 root root 17699306 6月  20 15:55 zookeeper-3.4.6.tar.gz
-rw-r--r--. 1 root root    11958 9月  23 18:33 zookeeper.out

10、统计文件夹的大小信息 -du

[root@mini2 ~]# du -sh *   linxu命令,为了形成与hadoopshell操作的对比
4.0K    anaconda-ks.cfg
266M    apps
4.0K    b.tx
4.0K    canglaoshi_wuma.avi
16M     hadoop
16K     install.log
4.0K    install.log.syslog
4.0K    merg.file
4.0K    xxoo.txt
152K    zkdata
17M     zookeeper-3.4.6.tar.gz
12K     zookeeper.out
[root@mini2 ~]# hadoop fs -du -s -h hdfs://mini1:9000/*
85  hdfs://mini1:9000/a.txt
7  hdfs://mini1:9000/canglaoshi_wuma.avi
22  hdfs://mini1:9000/cangmumayi.avi
13.5 M  hdfs://mini1:9000/tmp
217  hdfs://mini1:9000/wordcount
hadoop fs -du -s /*这样写会出现bug,出现的是linux下的文件大小

11、设置副本的数量 -setrep

[root@mini2 ~]# hadoop fs -setrep 3 /a.txt
Replication 3 set: /a.txt

12、从本地文件系统中拷贝文件到hdfs路径去 -copyFromLocal

hadoop  fs  -copyFromLocal  a.txt  /wordcount

13、从hdfs拷贝到本地 -copyToLocal

 

14、从hdfs的一个路径拷贝hdfs的另一个路径 -cp

hadoop  fs  -cp  /wordcount/a.txt  /bbb/b.txt

15、在hdfs目录中移动文件 -mv

hadoop  fs  -mv  /wordcount/a.txt  /

16、删除文件或者文件夹 -rm

hadoop fs -rm -r /aaa/a.txt

17、统计文件系统的可用空间信息 -df

hadoop  fs  -df  -h  /

能看出hadoop的shell操作与linux命令大部分都是一样的。
而对于操作是否成功很多都是可以直接在页面看到。

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值