1. 目标
- 通过hadoop hive或spark等数据计算框架完成数据清洗后的数据在HDFS上
- 爬虫和机器学习在Python中容易实现
- 在Linux环境下编写Python没有pyCharm便利
- 需要建立Python与HDFS的读写通道
2. 实现
- 安装Python模块pyhdfs
- 版本:Python3.6, hadoop 2.9
读文件代码如下
from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070')#hdfs地址
res=client.open('/sy.txt')#hdfs文件路径,根目录/
for r in res:
line=str(r,encoding='utf8')#open后是二进制,str()转换为字符串并转码
print(