python读取hdfs上的parquet文件

最新推荐文章于 2024-07-17 21:12:08 发布

zkq_1986

最新推荐文章于 2024-07-17 21:12:08 发布

阅读量4.3k

点赞数

分类专栏：程序设计语言 Spark

程序设计语言同时被 2 个专栏收录

85 篇文章 2 订阅

订阅专栏

15 篇文章 0 订阅

订阅专栏

python读取hdfs上的parquet文件

在使用python做大数据和机器学习处理过程中，首先需要读取hdfs数据，对于常用格式数据一般比较容易读取，parquet略微特殊。从hdfs上使用python获取parquet格式数据的方法(当然也可以先把文件拉到本地再读取也可以)：

1、安装anaconda环境。

2、安装hdfs3。

conda install hdfs3

3、安装fastparquet。

conda install fastparquet

4、安装python-snappy。

conda install python-snappy

如果是无网环境，需要把依赖包下载下来，配置 .condarc 文件，从指定包或者内网服务器安装。

namenode mode:

from hdfs3 import HDFileSystem

from fastparquet import ParquetFile

hdfs = HDFileSystem(host='172.16.6.32', port=8020)
sc = hdfs.open

pf = ParquetFile(filename, open_with=sc)

df = pf.to_pandas()

HA mode:

from hdfs3 import HDFileSystem
from fastparquet import ParquetFile

host = "nameservice1"
conf = {
"dfs.nameservices":"nameservice1",
......

}

hdfs = HDFileSystem(host = host, pars = conf)

......

返回pandas的DataFrame类型。

转载自：https://blog.csdn.net/haveanybody/article/details/79928203

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python读取hdfs上的parquet文件

python读取hdfs上的parquet文件在使用python做大数据和机器学习处理过程中，首先需要读取hdfs数据，对于常用格式数据一般比较容易读取，parquet略微特殊。从hdfs上使用python获取parquet格式数据的方法(当然也可以先把文件拉到本地再读取也可以)：1、安装anaconda环境。2、安装hdfs3。 conda install hdfs...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。