目录
测试集群
hadoop网页
可以看到这里现在是没有文件的
创建文件夹
hadoop fs -mkdir /input
此时看到已经创建出文件夹了
上传本地小文件
将word.txt上传到/input里
hadoop fs -put /home/yjr/bin/word.txt /input
上传本地大文件
hadoop fs -put /opt/software/jdk-8u212-linux-x64.tar.gz /
可以看到出现了两次提示
此时的JDK是存储在datanode里的,存储在之前core-site.xml里指定的data位置上。 注意replication为3,说明存储了三分顺序。
存放的地址大致如下,真是找得挺深
执行WordCount程序(内含修改mapred-site.xml)
注意是用hadoop执行命令,故位置使用集群文件存放位置
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output
这个时候开始报错了
查了一下,是mapred-site.xml里有一段没加,但是视频里也是没加的,没有办法,自己加一下试试,加完之后记得分发。
<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
<property>
<name>mapreduce.map.env</name>
<value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
<property>
<name>mapreduce.reduce.env</name> <value>HADOOP_MAPRED_HOME=$HADOOP_HOME</value>
</property>
改完报另一个错了…
继续查资料,解决办法是首先打印hadoop的classpath,然后把classptah作为value的值,把下面一段再添加进mapred-site.xml里。
hadoop classpath
<property>
<name>mapreduce.application.classpath</name>
<value>/opt/module/hadoop-3.1.3/etc/hadoop:/opt/module/hadoop-3.1.3/share/hadoop/common/lib/*:/opt/module/hadoop-3.1.3/share/hadoop/common/*:/opt/module/hadoop-3.1.3/share/hadoop/hdfs:/opt/module/hadoop-3.1.3/share/hadoop/hdfs/lib/*:/opt/module/hadoop-3.1.3/share/hadoop/hdfs/*:/opt/module/hadoop-3.1.3/share/hadoop/mapreduce/lib/*:/opt/module/hadoop-3.1.3/share/hadoop/mapreduce/*:/opt/module/hadoop-3.1.3/share/hadoop/yarn:/opt/module/hadoop-3.1.3/share/hadoop/yarn/lib/*:/opt/module/hadoop-3.1.3/share/hadoop/yarn/*</value>
</property>
哭了,总算成功了
配置历史服务器
修改mapred-site.xml
mapred-site.xml(???怎么又是改我)
加入历史服务器相关配置,改完分发
<!-- 历史服务器端地址 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop102:10020</value>
</property>
<!-- 历史服务器 web 端地址 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop102:19888</value>
</property>
启动历史服务器
mapred --daemon start historyserver
可以看到已经启动好了
JobHistory网址
http://hadoop102:19888/jobhistory
日志聚集功能
日志聚集概念:应用运行完成以后,将程序运行日志信息上传到 HDFS系统上。
日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。
注意:开启日志聚集功能,需要重新启动 NodeManager 、ResourceManager和HistoryServer。
配置 yarn-site.xml
加入如下内容
<!-- 开启日志聚集功能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>
<name>yarn.log.server.url</name>
<value>http://hadoop102:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为 7 天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
在102上启动
mapred --daemon start historyserver
启动/停止方法总结
(1)整体启动/停止 HDFS
start-dfs.sh/stop-dfs.sh
(2)整体启动/停止 YARN
start-yarn.sh/stop-yarn.sh
(3)分别启动/停止 HDFS 组件
hdfs --daemon start/stop namenode/datanode/secondarynamenode
(4)启动/停止 YARN
yarn --daemon start/stop resourcemanager/nodemanager
常用脚本
同样进入/home/yjr/bin里创建脚本myhadoop.sh
集群启动停止脚本
Hadoop 集群启停脚本(包含 HDFS,Yarn,Historyserver):myhadoop.sh
#!/bin/bash
if [ $# -lt 1 ]
then
echo "No Args Input..."
exit ;
fi
case $1 in
"start")
echo " =================== 启动 hadoop 集群 ==================="
echo " --------------- 启动 hdfs ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
echo " --------------- 启动 yarn ---------------"
ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
echo " --------------- 启动 historyserver ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
echo " =================== 关闭 hadoop 集群 ==================="
echo " --------------- 关闭 historyserver ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
echo " --------------- 关闭 yarn ---------------"
ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
echo " --------------- 关闭 hdfs ---------------"
ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
echo "Input Args Error..."
;;
esac
给予权限
chmod +x myhadoop.sh
查看三台服务器 Java 进程脚本
#!/bin/bash
for host in hadoop102 hadoop103 hadoop104
do
echo =============== $host ===============
ssh $host jps
done
常用端口号
hadoop3.x
- NameNode 内部通信端口:8020,9000,9820
- NameNode 对用户查询端口:9870
- Yarn查看执行任务端口:8088
- 历史服务器通信端口:19888
Hadoop2.x
- NameNode 内部通信端口:8020,9000
- NameNode 对用户查询端口:50070
- Yarn查看执行任务端口:8088
- 历史服务器通信端口:19888