安装Hadoop
1、关闭防火墙 所有节点 并设置映射
service iptables stop
chkconfig iptables off
2、设置免密钥
在master中生成密钥文件
ssh-keygen -t rsa
一直回车
将密钥文件同步到所有节点
ssh-copy-id master
ssh-copy-id node1
ssh-copy-id node2
3、上传hadoop安装包 上传到msater的/usr/local/soft/
hadoop-2.7.6.tar.gz
4、解压
tar -xvf hadoop-2.7.6.tar.gz
5、配置环境变量
vim /etc/profile
增加hadoop环境变量,将bin和sbin都配置到PATh中
export JAVA_HOME=/usr/local/soft/jdk1.8.0_171
export HADOOP_HOME=/usr/local/soft/hadoop-2.7.6
export PATH=.:$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile
6、修改配置文件
hadoop 配置文件在/usr/local/soft/hadoop-2.7.6/etc/hadoop/
cd /usr/local/soft/hadoop-2.7.6/etc/hadoop/
6.1、slaves : 从节点列表(datanode)
vim slaves
增加node1, node2
6.2、hadoop-env.sh : Hadoop 环境配置文件
vim hadoop-env.sh
修改JAVA_HOME
export JAVA_HOME=/usr/local/soft/jdk1.8.0_171
6.3、core-site.xml : hadoop核心配置文件
vim core-site.xml
在configuration中间增加以下内容
fs.defaultFS
hdfs://master:9000
hadoop.tmp.dir
/usr/local/soft/hadoop-2.7.6/tmp
fs.trash.interval
1440
6.4、hdfs-site.xml : hdfs配置文件
vim hdfs-site.xml
在configuration中间增加以下内容
dfs.replication
1
dfs.permissions
false
6.5、yarn-site.xml: yarn配置文件
vim yarn-site.xml
在configuration中间增加以下内容
yarn.resourcemanager.hostname
master
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.log-aggregation-enable
true
yarn.log-aggregation.retain-seconds
604800
yarn.nodemanager.resource.memory-mb
20480
yarn.scheduler.minimum-allocation-mb
2048
yarn.nodemanager.vmem-pmem-ratio
2.1
6.6、mapred-site.xml: mapreduce配置文件
重命名
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
在configuration中间增加以下内容
mapreduce.framework.name
yarn
mapreduce.jobhistory.address
master:10020
mapreduce.jobhistory.webapp.address
master:19888
7、将hadoop安装文件同步到子节点
scp -r /usr/local/soft/hadoop-2.7.6/ node1:/usr/local/soft/
scp -r /usr/local/soft/hadoop-2.7.6/ node2:/usr/local/soft/
8、格式化namenode
hdfs namenode -format
9、启动hadoop
start-all.sh
10、访问hdfs页面验证是否安装成功
这里master要在本电脑里配置映射
如果安装失败
stop-all.sh
再次重启的时候
1需要手动将每个节点的tmp目录删除: 所有节点都要删除
rm -rf /usr/local/soft/hadoop-2.7.6/tmp
然后执行将namenode格式化
2在主节点执行命令:
hdfs namenode -format
3启动hadoop
start-all.sh
Hadoop 三种运行模式:
1.本地模式(学习)
1.没有HDFS,使用当前系统下的文件系统
2.没有YARN,使用的是Linux中的资源
3.使用了 Map-Reduce Framework
2.伪分布式模式(学习)
1.只有单台机器
2.使用HDFS、Yarn、MapReduce
3.分布式模式(企业级)
1.多台服务器
2.集群模式,包含整个Hadoop组件
HDFS SHELL:
1.两种命令模式
1.1 hadoop fs
1.2 hdfs dfs
2.上传文件
-put:
hadoop fs -put ./word.txt /input
-copyFromLocal
hadoop fs -copyFromLocal ./
3.下载文件:
-get
hadoop fs -get /input/word_2.txt ./word_3.txt
-copyToLocal
hadoop fs -copyToLocal /input/word_2.txt ./word_4.txt
4.查看HDFS文件信息:
-ls
hdfs dfs -ls /
-df -h
hdfs dfs -df -h / # 查看HDFS根目录中空间使用情况
-du -h
hdfs dfs -du -h / # 查看指定目录下的文件大小
5.赋予文件权限
-chmod
hdfs dfs -chmod u+x 路径 #表示对指定路径或文件赋予执行使用者权限
6.创建文件夹
-mkdir
-p :表示迭代创建多级目录
7.移动文件或文件夹
-mv
8.设置副本数
-setrep
hadoop fs -setrep 副本数 多个路径
9.查看文件内容
-tail
hadoop fs -tail /re/word_2.txt
-f:
hadoop fs -tail -f /re/word_2.txt # 表示追踪文件的内容
-cat
hadoop fs -cat /re/word_2.txt