python操作WebHDFS

最新推荐文章于 2024-06-26 09:57:47 发布

python_cat_d

最新推荐文章于 2024-06-26 09:57:47 发布

阅读量925

点赞数 2

分类专栏： python

本文链接：https://blog.csdn.net/weixin_44023509/article/details/94392369

版权

python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

python操作WebHDFS

起因

在工作中经常需要使用到hdfs进行文件操作，同时经常有和java做数据交互同时操作hdfs的过程，在这个过程中发现java使用hdfs的方式和python还是有一定差异性的，如路径头部java为hdfs，python为url，于是写下此文档做一个总结备用。

WebHDFS API客户端

class hdfs.client.Client（url，root = None，proxy = None，timeout = None，session = None ）
参数：url - HDFS namenode的主机名或IP地址，前缀为protocol，后跟namenode上的WebHDFS端口。您还可以指定由分号分隔的多个URL以获得高可用性支持。
proxy - 代理用户。
root - 根路径，这将作为传递给客户端的所有HDFS路径的前缀。如果根是相对的，则将相对于用户的主目录假定路径。
timeout - 连接超时，转发到请求处理程序。在放弃之前等待服务器发送数据的时间，浮点数或 元组。如果达到超时，将引发适当的异常。有关详细信息，请参阅请求文档(connect_timeout, read_timeout)
session - requests.Sessioninstance，用于发出所有请求。

当我们在项目中实际使用时，我们发现python操作hdfs用的最多的就是数据上传和下载

# 上传
upload（hdfs_path，local_path，n_threads = 1，temp_dir = None，chunk_size = 65536，progress = None，cleanup = True，** kwargs ）
将文件或目录上传到HDFS。

参数：	
hdfs_path - 目标HDFS路径。如果它已经存在并且是目录，则文件将被上传到内部。
local_path - 文件或文件夹的本地路径。如果是文件夹，则会上传其中的所有文件（请注意，这意味着不会远程创建文件夹空文件）。
n_threads - 用于并行化的线程数。值 0（或负数）使用与文件一样多的线程。
temp_dir - 当overwrite=True最终远程路径已存在时，首次上载文件的目录。上传成功完成后，它将被交换。
chunk_size - 文件上传的间隔（以字节为单位）。
progress - 用于跟踪进度的回调函数，调用每个 chunk_size字节。它将传递两个参数，即上载文件的路径和到目前为止传输的字节数。完成后，它将-1作为第二个参数调用一次。
清理 - 如果在上载过程中发生错误，请删除所有上传的文件。
** kwargs - 转发给的关键字参数write()。特别是，设置overwrite为覆盖任何现有文件或目录。
成功时，此方法返回远程上载路径。

下载
download（hdfs_path，local_path，overwrite = False，n_threads = 1，temp_dir = None，** kwargs ）
从HDFS下载文件或文件夹并将其保存在本地。

参数：	
hdfs_path - 要下载的文件或文件夹的HDFS路径。如果是文件夹，则下载其下的所有文件。
local_path - 本地路径。如果它已经存在并且是目录，则文件将在其中下载。
覆盖 - 覆盖任何现有文件或目录。
n_threads - 用于并行化的线程数。值 0（或负数）使用与文件一样多的线程。
temp_dir - 首次下载文件时的目录overwrite=True，最终目标路径已存在。下载成功完成后，将进行交换。
** kwargs - 转发给的关键字参数read()。如果没有 chunk_size传递参数，将使用默认值64 kB。如果progress传递参数并使用线程，则必须注意确保正确的行为。
成功时，此方法返回本地下载路径。

在项目中为了保证一台设备只有一个hdfs链接我采用了多线程单例模式：

from hdfs.client import Client
import threading


class SingletonClient(object):
    '''
    多线程单例模式，保证一台设备上只有一个hdfs的连接
    '''
    _instance_lock = threading.Lock()

    def __init__(self,client_url,root=None, proxy=None, timeout=None, session=None):
        self.hdfs_client = Client(client_url, root, proxy, timeout, session)

    def __new__(cls, *args, **kwargs):
        if not hasattr(SingletonClient, "_instance"):
            with SingletonClient._instance_lock:
                if not hasattr(SingletonClient, "_instance"):
                    SingletonClient._instance = object.__new__(cls)
        return SingletonClient._instance

然后利用该方法实现文件的上传下载

def put_to_hdfs(client_url,local_path,hdfs_path,root=None,proxy=None,timeout=None,session=None):
    singleton_client = SingletonClient(client_url,root,proxy,timeout,session)
    singleton_client.hdfs_client.upload(hdfs_path, local_path,cleanup=True)

# from hdfs download to local
def download_hdfs(client_url, hdfs_path, local_path,root=None,proxy=None,timeout=None,session=None):
    singleton_client = SingletonClient(client_url,root,proxy,timeout,session)
    return singleton_client.hdfs_client.download(hdfs_path,local_path,overwrite=False,n_threads=1,temp_dir=None)

# create hdfs dir
def mkdirs(client_url,hdfs_path,root=None,proxy=None,timeout=None,session=None) :
    singleton_client = SingletonClient(client_url,root,proxy,timeout,session)
    singleton_client.hdfs_client.makedirs(hdfs_path)

该方法所需连接hdfs的参数可以由java通过命令行的方式传入，也可以由python写入配置文件读取，也可以通过数据库存储的方式读取，各有优劣不赘述，建议写入python配置文件（java大神有时候不太了解python，有时候沟通起来不太方便最好分离开发，达到高内聚低耦合，在这里我要说一句java才是世界上最好的语言哈哈）。