通过管道向 hadoop put 文件


使用 hadoop file shell 可以方便地向 hdfs put 文件,但是,该 shell 不支持从管道读取数据并放到 hdfs 文件中。它仅支持这样的 put 命令:

Shell 代码
  1. cd $HADOOP_HOME  
  2. bin/hadoop fs -put localfile $hdfsFile  
  3. bin/hadoop fs -put localfiles $hdfsDir  
cd $HADOOP_HOME
bin/hadoop fs -put localfile $hdfsFile
bin/hadoop fs -put localfiles $hdfsDir

 幸好,主流的 unix (linux,bsd等)都有一个 /dev/fd/ 目录,可以用它实现从管道 put 文件

Shell代码
  1. cd $HADOOP_HOME  
  2. if bin/hadoop fs -test -d $hdfsFile  
  3. then  
  4.     echo "$hdfsFile is a directory" >&2  
  5.     exit 1  
  6. fi  
  7. cat localfileS | bin/hadoop fs -put /dev/fd/0  $hdfsFile  
  8. if [[ "0 0" == ${PIPESTATUS[*]} ]]  
  9. then  
  10.     echo success  
  11. else  
  12.     bin/hadoop fs -rm $hdfsFile  
  13.     echo failed >&2  
  14. fi   
cd $HADOOP_HOME
if bin/hadoop fs -test -d $hdfsFile
then
    echo "$hdfsFile is a directory" >&2
    exit 1
fi
cat localfileS | bin/hadoop fs -put /dev/fd/0  $hdfsFile
if [[ "0 0" == ${PIPESTATUS[*]} ]]
then
    echo success
else
    bin/hadoop fs -rm $hdfsFile
    echo failed >&2
fi 

其中,使用 PIPESTATUS 检查错误

 

需要注意,使用 /dev/fd/0 put 文件时,hdfsFile 必须事先不存在,并且不能是一个目录,如果hdfsFile实际上是一个目录,那么,put 仍然正确执行,但是,hdfs 中的文件名将是 hdfsFile/0

 

/dev/fd/ 中是进程所有已打开的文件描述符列表,例如 /dev/fd/0 代表标准输入,/dev/fd/1 代表标准输出,/dev/fd/2 代表标准错误输出,等等,打开 /dev/fd/n 相当于调用 dup(n) 。


2014-01-19:不知道从什么时候开始,hadoop fs -put 可以使用 '-' 代表 stdin,不再需要使用 /dev/fd/0

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值