Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV

最新推荐文章于 2024-09-09 09:56:29 发布

翱翔的江鸟

最新推荐文章于 2024-09-09 09:56:29 发布

阅读量1w

点赞数 1

分类专栏： Python HDFS 文章标签： hdfs python

本文链接：https://blog.csdn.net/wxfghy/article/details/80941088

版权

本文目标是建立Python与HDFS的读写通道，实现文件上传下载。介绍了使用pyhdfs模块进行读写操作，并通过pandas将文本文件转换为CSV格式。

摘要由CSDN通过智能技术生成

1. 目标

通过hadoop hive或spark等数据计算框架完成数据清洗后的数据在HDFS上
爬虫和机器学习在Python中容易实现
在Linux环境下编写Python没有pyCharm便利
需要建立Python与HDFS的读写通道

2. 实现

安装Python模块pyhdfs
版本:Python3.6, hadoop 2.9

读文件代码如下

from pyhdfs import HdfsClient
client=HdfsClient(hosts='ghym:50070')#hdfs地址
res=client.open('/sy.txt')#hdfs文件路径,根目录/
for r in res:
    line=str(r,encoding='utf8')#open后是二进制,str()转换为字符串并转码
    print(

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

翱翔的江鸟

关注关注

1
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python实现HDFS文件上传、下载操作

杨鑫newlife的专栏

02-18

7365

lib install: pip install pyhdfs Python Code: # -*- coding:utf-8 -*- __author__ = 'yangxin_ryan' import pyhdfs class FileManager(object): # upload file to hdfs from local file system ...

Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作

12-17

1. 目标通过hadoop hive或spark等数据计算框架完成数据清洗后的数据在HDFS上爬虫和机器学习在Python中容易实现在Linux环境下编写Python没有pyCharm便利需要建立Python与HDFS的读写通道 2. 实现安装Python模块pyhdfs 版本:Python3.6, hadoop 2.9 读文件代码如下 from pyhdfs import HdfsClient client=HdfsClient(hosts='ghym:50070')#hdfs地址 res=client.open('/sy.txt')#hdfs文件路径,根目录/ for r in

参与评论您还未登录，请先登录后发表或查看评论

python读取hdfs并返回dataframe教程

09-16

主要介绍了python读取hdfs并返回dataframe教程，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

HDFS常用命令及Python连接HDFS操作

最新发布

weixin_44458771的博客

09-09

555

HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）是Hadoop集群中的一部分，用于存储大量数据，并运行在商用硬件集群上。

Python使用pandas读取hdfs文件

qq_40285736的博客

06-11

4938

代码如下 from pyhdfs import HdfsClient client = HdfsClient(hosts='192.168.1.1:50070') # TypeError: cannot use a string pattern on a bytes-like object #从hdfs中读取文件 file = client.open("/data/movielens/train/ra.train") #获取内容

记读取hdfs 转 pandas 再经由pandas转为csv的一个坑

qq_39314099的博客

11-06

1077

工作流程是这样的：读取 hdfs 的 csv 文件，采用的是 hdfs 客户端提供的 read 方法，该方法返回一个生成器。将读取到的数据按逗号处理，变为一个二维数组。将二维数组传给 pandas，生成 df。经若干处理后，将 df 转为 csv 文件并写入hdfs。问题是这样的：正常的数据： ZERO,MEAN,STD,CV,INC,OPP,CS,IS_...

pandas读取hdfs里面文件的方法

唯有热爱可抵万难

08-30

306

注意sep是你的列分隔符。

python读取hdfs并返回dataframe

未来战警

09-03

7616

不多说，直接上代码 from hdfs import Client import pandas as pd HDFSHOST = "http://xxx:50070" FILENAME = "/tmp/preprocess/part-00000" #hdfs文件路径 COLUMNNAMES = [xx'] def readHDFS(): ''' 读取hdfs文件 ...

python解析hdfs文件和实现方式

11-24

Python在大数据处理领域有着广泛的应用，特别是在处理分布式文件系统如Hadoop HDFS（Hadoop Distributed File System）时。本文将详细介绍如何使用Python解析HDFS文件，并将其内容生成为本地文件，以及相关的插件包...

使用python将指定文件夹下的全部文件上传到 hdfs 的指定路径

刘延林

07-29

7962

因在公司业务上遇到一个需求，需要将指定服务器上的指定路径下的所有文件，例如：test.csv 上传到hdfs上，参考了网上的一些大佬的帖子实现了需求，故做个笔记方便以后查看，参考地址：https://www.cnblogs.com/SmallCaff/p/10650699.html import os import platform import logging as lg from...

完美解决python针对hdfs上传和下载的问题

12-17

当我们使用python的hdfs包进行上传和下载文件的时候，总会出现如下问题 requests.packages.urllib3.exceptions.NewConnectionError:: Failed to establish a new connection: [Errno -2] Name or service not known 其实这主要是由于没有将各个集群节点的ip映射到/etc/hosts文件中修改/etc/host

python3使用pyhdfs向hdfs中上传文件示例

杨航的博客

01-04

1081

本文用来介绍python3使用pyhdfs包来操作hdfs。

python hdfs模块使用

seeicb的博客

03-06

1967

title: python hdfs模块使用 date: 2017-02-21 20:43:11 categories: Python tags: HDFS HDFS是hadoop分布式文件系统，HDFS中有两类节点。一类是NameNode，一类是DataNode。其中NameNode是管理者，存储各种文件的元数据，SecondaryNameNode作为NameNode的冷备份。DataNo...

11.6 hdfs读取json数据，转成DataFrame保存到hdfs

心雨先生

08-09

5059

读取json或者parquet文件创建一个DataFrame DataFrame存储到某一个路径下，默认存储格式是parquet SaveMode.Overwrite：重写 SparkConf conf = new SparkConf() .setAppName("SaveModeTest") .setMaster("local"); JavaSparkContext sc = new...

python 上传本地文件夹到hdfs

dong7236983723698的专栏

05-13

1636

hadoop hdfs 上传文件

pyhdfs库与Hadoop分布式文件系统（HDFS）进行交互

weixin_44943389的博客

10-07

212

正在使用pyhdfs库与Hadoop分布式文件系统（HDFS）进行交互。：导入了pyhdfs模块，这是一个用于与HDFS进行交互的Python客户端。：创建了一个HDFS客户端实例。它连接到了指定主机上的HDFS，使用的用户名是’root’。：这行代码在HDFS中创建了一个目录。具体来说，它在根目录下创建了一个名为“振动”的目录，然后在其中创建了一个名为“2022-7-20”的子目录。类似地，后续的两行代码分别在“振动”目录下创建了名为“2022-7-19”和“2022-7-18”的子目录。

Python批量下载hdf数据

Joeybee的博客

04-12

248

这种方法首先要下载一个驱动，然后第一个界面会跳转到登录界面，我设置了30秒可以更改下载地址，然后输入密码和用户名。最后一个界面保持10分钟，这是因为之前总是数据没下完，代码就结束了，然后就把浏览器关了，我就想最后一次时间保持长一些，这样就可以让数据都下完。这段代码是用来检查有哪些文件下了，有哪些文件没下，我们从nasa下载的url通常有上千个，有可能出现下载不成功的情况，我们可以用这段代码检查，哪些没有下载成功。因为用nasa的代码总是报错，但是用浏览器下载数据是好的。最后就是将下载的hdf转栅格。

使用python操作hdfs

Crazy博客

12-26

4725

python连接hdfs和hive，将hdfs中的csv文件导入hive的数据表中

04-04

可以使用PyHive库连接Hive和HDFS，并使用HiveQL语句将HDFS中的CSV文件导入Hive数据表中。下面是一个示例代码： ```python from pyhive import hive import pandas as pd # 连接Hive conn = hive.connect(host='localhost', port=10000, username='username') # 创建Hive表 create_table_qry = """ CREATE TABLE IF NOT EXISTS my_table ( col1 STRING, col2 INT, col3 FLOAT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n' STORED AS TEXTFILE """ with conn.cursor() as cur: cur.execute(create_table_qry) # 从HDFS中导入数据到Hive表 load_data_qry = """ LOAD DATA INPATH '/path/to/csv/file.csv' INTO TABLE my_table """ with conn.cursor() as cur: cur.execute(load_data_qry) # 查询导入的数据 select_qry = """ SELECT * FROM my_table """ df = pd.read_sql(select_qry, conn) print(df.head()) # 关闭连接 conn.close() ``` 其中，需要将`host`和`username`参数替换为实际的Hive主机名和用户名，将`/path/to/csv/file.csv`替换为实际的HDFS中CSV文件的路径。在上述代码中，使用Pandas库读取Hive数据表中的数据并打印前5行。