Hadoop常用命令

1.创建文件夹

hadoop dfs -mkdir /hadoop/path/

2.上传文件的两种方式

hdfs dfs -copyFromLocal /local/data/file.txt /hadoop/data :将本地文件上传到hdfs上(原路径只能是一个文件)
hadoop dfs -put /local/*.txt /hadoop/path/ :put和 copyFromLocal 区别是,put 原路径可以是文件夹等

hadoop dfs -put -f /local/*.txt /hadoop/path/ :-f 含义是表示强制覆益

3.上传文件夹

hdfs dfs -put /local/data/ /hadoop/data/

4.删除目录dir:

hadoop dfs -rm -r /hadoop/data
##删除目录不放回收站-skipTrash
hdfs dfs -rm-r -skipTrash /hadoop/data/two_lm_txt_all_gbk

5.查看目录 文件

hadoop dfs -ls /tmp/data :查看/tmp/data 目录

6.查看文件内容

hadoop fs -cat /tmp/a.txt :查看/tmp/a.txt文件内容

7.下载文件

hadoop fs -get /path/to/hadoop/file.txt /path/on/local/machine

8.查看文件夹下的文件数量

hdfs dfs -count /hadoop/data

9.Hadoop上移动文件

hdfs dfs -mv /hadoop/data/* /hadoop/data1/

10.查着文件夹占用内存

hdfs dfs -du -h -s /hadoop/data/

11.查看文件夹下数据占用内存

hdfs dfs -du -h /workdir/nlm
hadoop dfs -du -h /workdir/nlm

12.查着Hadoop任务进程id

yarn application list
yarn application -list

13.kill掉Hadoop任务进程id

yarn application -kill id

14.查看hadoop的md5

hadoop dfs -cat /hadoop/data.txt | md5sum

实操:对比本地文件md5,来判断上传文件是否一致

import subprocess
def command_shell(command):
    output=subprocess.check_output(command,shell=True)
    output_str=output.decode("utf-8")
    return output_str.split(" ")[0]
command1="md5sum /local/data.txt"
local_md5=command_shell(command1)
command2="hadoop dfs -cat /hadoop/data.txt | md5sum"
hdfs_md5=command_shell(command2)
if local_md5==hdfs_md5:
    print("md5相同,文件一致")

15.将目录下的所有内容merge成一个文件,下载到本地

hadoop dfs -getmerge /hadoop/

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

空弹壳

你的鼓励是我创作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值