将camus订阅的topics在hdfs上的某一天数据进行格式化并写为hudi表并同步到hive meatstore
引入相关环境
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 将camus订阅的topics在hdfs上的某一天数据进行格式化并写为hudi表并同步到hive meatstore
from __future__ import print_function
from pyspark.sql import SparkSession
from pyspark.sql import Row
from pyspark.sql.types import *
import json
import datetime
import sys
定义json解析函数
# 将topic的json解析为一层平铺的k-v
def json_format(item):
new_item = {
}
for key,value in json.loads(item).items():
if key == 'data':
for k,v in json.loads(value).items():
new_item[k] = v
elif key == 'msg_data':
for k,v in value.items():
if k in ('vid

该Python脚本主要功能是从Camus订阅的Kafkatopics中读取HDFS上的数据,进行格式化处理,转换为Hudi表,并将Hudi表同步到HiveMetaStore。通过SparkSession进行数据处理,包括JSON解析、日期转换,以及使用Hudi选项配置数据写入和Hive同步。
最低0.47元/天 解锁文章
4062

被折叠的 条评论
为什么被折叠?



