1、缘起:
1、最近项目中部署模型时涉及到需要在线处理hive表数据,通过算法处理后,将处理生成的结果写入hive表中。通过调研可使用pyspark通过python操作hive表并处理,再生成hive表。但对于没接触pyspark的我来说,学习pypark存在时间代价。所以探索通过hdfs交互的方式对hive表进行读取和生成。
2、hive表读取可通过将hive存储为csv格式通过pandas读取,注意此时千万不要将hive表存储为压缩格式,负责csv打开是乱码;hive表存储通过在hdfs上创建库表(库表目录),通过’LOAD DATA local INPATH ‘/home/aa.txt’ INTO TABLE your_table partition(dt=‘2021-01-23’) #dt是分区的字段 ’ 命令进行插入即可,以下为操作流程。
2、读取hive数据
- 先从hdfs上将数据拉取到本地(一定注意hive要使用textfile格式存储,且为非压缩)
get_hdfs_cmd = "hdfs dfs -get {}".format(input_hive_table_path)
os.system(get_hdfs_cmd)
- 再通过pandas读取拉取到的数据即可
df = pd.read_csv(test_file, header=None, names=['user_acct',