一、启动hadoop
1、格式化namenode
hdfs namenode -format
如果已经格式化后,下次不要重复格式化,回导致找不到DataNode启动失败
用jps命令查看进程启动情况,如果主节点中有namenode,而从节点中没有datanode进程则启动失败
2、启动hadoop
bash start-all.sh bash stop-all.sh
二、hadoop概念
1、Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。
2、hadoop是一个统称,目前hadoop主要包含三大组件
hdfs:是一个分布式存储框架,适合海量数据存储
mapreduce:是一个分布式计算框架,适合海量数据计算
yarn:是一个资源调度平台,负责给计算框架分配计算资源
三、Hadoop 三种运行模式
1.本地模式(学习)
1.没有HDFS,使用当前系统下的文件系统
2.没有YARN,使用的是Linux中的资源
3.使用了 Map-Reduce Framework
2.伪分布式模式(学习)
1.只有单台机器
2.使用HDFS、Yarn、MapReduce
3.分布式模式(企业级)
1.多台服务器
2.集群模式,包含整个Hadoop组件
三、hadoop文件命令
1.两种命令模式(前缀用其一)
1.1 hadoop fs 直接输入可查看所有命令
1.2 hdfs dfs
2.上传文件(两种用其一)
-put:
hadoop fs -put ./word.txt /input
-copyFromLocal
hadoop fs -copyFromLocal 文件所在目录 复制地所在目录
3.下载文件:
-get
hadoop fs -get /input/word_2.txt ./word_3.txt
-copyToLocal
hadoop fs -copyToLocal /input/word_2.txt ./word_4.txt
4.查看HDFS文件信息:
-ls
hdfs dfs -ls /
-df -h
hdfs dfs -df -h / # 查看HDFS根目录中空间使用情况
-du -h
hdfs dfs -du -h / # 查看指定目录下的文件大小
5.赋予文件权限
-chmod
hdfs dfs -chmod u+x 路径 #表示对指定路径或文件赋予执行使用者权限
6.创建文件和文件夹
hdfs dfs -touchz 文件目录
hdfs dfs -mkdir (-p)文件夹目录
-p :表示迭代创建多级目录
7、删除文件和文件夹
hdfs dfs -rm 文件路径 删除文件
hdfs dfs -rmdir 文件夹路径 删除文件夹
7.移动文件或文件夹
-mv
8.设置文件的多个副本
-setrep
hadoop fs -setrep 副本数 多个路径
9.查看文件内容(-tail , -cat)
-tail :hadoop fs -tail /re/word_2.txt
-f: hadoop fs -tail -f /re/word_2.txt # 表示追踪文件的内容,输出不会停止,修改文件会继续输出。
-cat :hadoop fs -cat /re/word_2.txt