首先,附上 Github 链接LakeSoul:https://github.com/meta-soul/LakeSoul,可搜索公众号元灵数智,在底部菜单了解我们 - 用户交流获取官方技术交流群二维码,进群与业内大佬进行技术交流。
近日,LakeSoul 研发团队帮助用户解决了一个使用 Hudi 过程中遇到的实际的业务问题,在这里做个总结记录。大体业务流程是上游系统从线上 DB 表中抽取原始数据转换成 json 格式,写入 Kafka ,下游使用 Spark 读取 Kafka 中的消息,原先使用 Hudi 将数据更新聚合后,发送给下游数据库分析。
在使用过程中发现,Kafka里面的部分数据只有原始表中某些字段。Kafka中数据样例:{A:A1,C:C4,D:D6,E:E7} {A:A2,B:B4,E:E6} {A:A3,B:B5,C:C