又来了新的任务,需要学习一些大数据开发的相关操作,其实之前学过一些内容,但是当初没有好好学,现在还得重新学习起来。
大数据系统中各种模块的作用
HDFS:分布式文件系统,用来存储数据
YARN:用于资源调度,CPU、内存之类的
Map Reduce:用于计算,基于磁盘
Spark:用于计算,基于内存
sqoop:用于将关系数据库和hadoop之间进行转换
Flume:日志收集
namenode:名称节点,作用是知道数据具体在哪
datanode:数据节点,存储数据
secondarynamenode:是namenode的冷备份
热备份:一旦namenode出了问题,secondarynamenode立马起作用
冷备份:一旦namenode出了问题,需要一个过程,secondarynamenode才起作用
HDFS体系结构
Hadoop相关操作
hadoop启动与停止 :start-dfs.sh stop-dfs.sh
在浏览器中查看信息:http://localhost:50070
YARN启动与停止:start-yarn.sh stop-yarn.sh
Hadoop常用shell命令
hadoop fs:适用于不同的文件系统,例如本地文件系统和HDFS文件系统
hadoop dfs:只适用于HDFS文件系统
hdfs dfs:只适用于HDFS文件系统
hdfs dfs -mkdir -p /user/hadoop 创建多级目录
hdfs dfs -mkdir input 创建一个目录
hdfs dfs -ls /user/hadoop 查看目录下文件信息
hdfs dfs -rm input 删除input文件夹
hdfs dfs -put 本地文件地址 input 把本地的文件传到HDFS文件系统的input中
hdfs dfs -cat input/xxxx.txt 查看HDFS文件系统中input下xxxx.txt文件
hdfs dfs -get input/xxx.txt /home/hadoop/ 把HDFS文件系统中input文件夹下的xxx.txt放到本地中