hdfs数据写入hudi表并同步hive

Ayanha

已于 2023-04-25 17:26:55 修改

阅读量401

点赞数

分类专栏： Hadoop 文章标签： hive hdfs 大数据

于 2023-04-12 19:12:21 首次发布

本文链接：https://blog.csdn.net/weixin_45052608/article/details/130114213

版权

该Python脚本主要功能是从Camus订阅的Kafkatopics中读取HDFS上的数据，进行格式化处理，转换为Hudi表，并将Hudi表同步到HiveMetaStore。通过SparkSession进行数据处理，包括JSON解析、日期转换，以及使用Hudi选项配置数据写入和Hive同步。

摘要由CSDN通过智能技术生成

将camus订阅的topics在hdfs上的某一天数据进行格式化并写为hudi表并同步到hive meatstore

引入相关环境

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 将camus订阅的topics在hdfs上的某一天数据进行格式化并写为hudi表并同步到hive meatstore
from __future__ import print_function
from pyspark.sql import SparkSession
from pyspark.sql import Row
from pyspark.sql.types import *
import json
import datetime
import sys

定义json解析函数

# 将topic的json解析为一层平铺的k-v
def json_format(item):
    new_item = {
   }
    for key,value in json.loads(item).items():
        if key == 'data':
            for k,v in json.loads(value).items():
                new_item[k] = v
        elif key == 'msg_data':
            for k,v in value.items():
                if k in ('vid