关于Hadoop的安装部署有伪分布式和完全分布式,不在过多的讲述
由于本人机器配置不足,以下用伪分布式。
Hadoop介绍:
广义:以 apache hadoop软件为主的生态圈: hive、flume、hbase、kafka、spark、flink
狭义:apache hadoop软件
组成:
hdfs:存储 海量的数据
mapreduce:计算和分析
yarn:资源和作业的调度
对于大数据来说,存储是第一为,不追求效率,存储和计算是相辅相成的。
hdfs、yarn的启动和停止:
hdfs:启动
start-dfs.sh
停止:
stop-dfs.sh
yarn:启动
start-yarn.sh
停止:
stop-yarn.sh
对于为分布式来说,有命令可以一件群起和停止
启动和可以输入jps命令进行查看Hadoop是否启动成功
start-all.sh
stop-all.sh
而对于完全分布式来说,不能使用all.sh
但可以编写shell进行一键群起和停止。
以下是shell脚本的
#!/bin/bash
if [ $# -lt 1 ];then
echo "Usage:$0 start|stop"
exit
fi
case $1 in
"start")
echo "========启动hadoop集群========"
echo "========启动 hdfs========"
ssh bigdata32 "/home/hadoop/app/hadoop/sbin/start-dfs.sh"
echo "========启动 yarn========"
ssh bigdata33 "/home/hadoop/app/hadoop/sbin/start-yarn.sh"
;;
"stop")
echo "========停止hadoop集群========"
echo "========停止 yarn========"
ssh bigdata33 "/home/hadoop/app/hadoop/sbin/stop-yarn.sh"
echo "========停止 hdfs========"
ssh bigdata32 "/home/hadoop/app/hadoop/sbin/stop-dfs.sh"
;;
*)
echo "Usage:$0 start|stop"
;;
esac
Hadoop hdfs操作命令:
查看hdfs
hdfs dfs -ls /
hadoop fs -ls /
该命令和linux的ls相似
创建文件夹:mkdir
hadoop fs -mkdir /文件名
-mkdir 后可跟参数,可以创建子文件夹
移动、拷贝 mv cp
hadoop fs -mv /移动文件 /移动目的地
hadoop fs -cp /复制文件 /目的地
cp是两份,而mv只有一份
mv 移动时可以对移动的文件进行重命名
删除rm
hadoop fs -rm /删除的文件名
hadoop fs -rm -r /删除的文件夹
补充:
参数-skipTrash : hdfs 回收站
fs.trash.interval 0 10080 7天
<property>
<name>fs.trash.interval</name>
<value>10080</value>
</property>
上传put(copyfromlocal) 下载get(copytolocal)
hadoop fs -put ./2.log ./3.log /
hadoop fs -copyFromLocal ./2.log /data
丛本地目录上传到Hadoop
hadoop fs -get /data ./
chmod权限
hadoop fs -chmod 664 /1.log
chown :拥有者
hadoop fs -chown zihang:DL2262 /1.log
查看文件内容:cat
hadoop fs -cat /1.log