python读取hive表数据及将生成的数据存入hive表

本文介绍了如何使用Python通过HDFS来读取和写入Hive表数据,包括读取Hive数据为CSV,再通过Pandas处理,以及将处理后的数据以CSV格式写入Hive表,分为带分区和不带分区两种情况。
摘要由CSDN通过智能技术生成

1、缘起:

1、最近项目中部署模型时涉及到需要在线处理hive表数据,通过算法处理后,将处理生成的结果写入hive表中。通过调研可使用pyspark通过python操作hive表并处理,再生成hive表。但对于没接触pyspark的我来说,学习pypark存在时间代价。所以探索通过hdfs交互的方式对hive表进行读取和生成。
2、hive表读取可通过将hive存储为csv格式通过pandas读取,注意此时千万不要将hive表存储为压缩格式,负责csv打开是乱码;hive表存储通过在hdfs上创建库表(库表目录),通过’LOAD DATA local INPATH ‘/home/aa.txt’ INTO TABLE your_table partition(dt=‘2021-01-23’) #dt是分区的字段 ’ 命令进行插入即可,以下为操作流程。

2、读取hive数据

  • 先从hdfs上将数据拉取到本地(一定注意hive要使用textfile格式存储,且为非压缩
get_hdfs_cmd = "hdfs dfs -get  {}".format(input_hive_table_path)
os.system(get_hdfs_cmd)
  • 再通过pandas读取拉取到的数据即可
df = pd.read_csv(test_file, header=None, names=['user_acct', 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值