hdfs数据写入hudi表并同步hive

该Python脚本主要功能是从Camus订阅的Kafkatopics中读取HDFS上的数据,进行格式化处理,转换为Hudi表,并将Hudi表同步到HiveMetaStore。通过SparkSession进行数据处理,包括JSON解析、日期转换,以及使用Hudi选项配置数据写入和Hive同步。
摘要由CSDN通过智能技术生成

将camus订阅的topics在hdfs上的某一天数据进行格式化并写为hudi表并同步到hive meatstore

引入相关环境
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 将camus订阅的topics在hdfs上的某一天数据进行格式化并写为hudi表并同步到hive meatstore
from __future__ import print_function
from pyspark.sql import SparkSession
from pyspark.sql import Row
from pyspark.sql.types import *
import json
import datetime
import sys
定义json解析函数
# 将topic的json解析为一层平铺的k-v
def json_format(item):
    new_item = {
   }
    for key,value in json.loads(item).items():
        if key == 'data':
            for k,v in json.loads(value).items():
                new_item[k] = v
        elif key == 'msg_data':
            for k,v in value.items():
                if k in ('vid
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值