上传本地文件到HDFS spark可以直接使用

spark进行运算时需要先将数据转换成RDD,然而很多数据是本地的,textFile调用不方便而且耗时耗性能(添加file:///使用)。

所以有了将本地数据先上传至HDFS的现实业务需求。


1. 创建文件(使用已有文件夹跳过此步)

切换到hadoop 安装目录(如果在bash中设置过了,这步不是必须的),启动hadoop(启用HDFS,yarn不是必要的)

然后输入命令:bin/hdfs dfs -mkdir /tianxiaodata,(如果在bash中设置过了,没有bin/hdfs这个前缀命令)

在hdfs上创建tianxiaodata文件夹存放我自己的各种数据


2. 上传本地文件

上传文件到tianxiaodata文件夹:

命令:bin/hdfs dfs -put /usr/local/spark/testdata/ /tianxiaodata/

命令说明:-put {需要上传的文件或者文件夹,例子中是文件夹}空格{存放的目标HDFS路径}


P.S. 每步结果都可以通过web浏览器查看HDFS状态

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值