Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV

本文目标是建立Python与HDFS的读写通道,实现文件上传下载。介绍了使用pyhdfs模块进行读写操作,并通过pandas将文本文件转换为CSV格式。
摘要由CSDN通过智能技术生成

1. 目标

  1. 通过hadoop hive或spark等数据计算框架完成数据清洗后的数据在HDFS上
  2. 爬虫和机器学习在Python中容易实现
  3. 在Linux环境下编写Python没有pyCharm便利
  4. 需要建立Python与HDFS的读写通道

2. 实现

  1. 安装Python模块pyhdfs
  2. 版本:Python3.6, hadoop 2.9
读文件代码如下
from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070')#hdfs地址
res=client.open('/sy.txt')#hdfs文件路径,根目录/
for r in res:
    line=str(r,encoding='utf8')#open后是二进制,str()转换为字符串并转码
    print(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值