![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 95
叶不修233
这个作者很懒,什么都没留下…
展开
-
Hudi-IDEA编程
配置详见【1.Scala配置】依赖详见【1.Hudi+Spark+Kafka依赖】1-2 从Kafka/CSV文件读取数据1-3 ETL转换后存储至Hudi表中1-4 SparkSQL加载Hudi表数据并分析二、Hudi+Flink+Kafka(Java)依赖详见【2.Hudi+Flink+Kafka依赖】第1步获取表执行环境无需赘述。第2步创建输入表:指定了Kafka的服务IP和端口、topic等信息,从这里读取数据第3步中转换数据为Hudi表中需要的格式(添加两个必须字段:数据合并字段t原创 2024-04-17 13:44:46 · 803 阅读 · 0 评论 -
Hudi-ubuntu环境搭建
二是基于日志,这也是业界广泛使用的一种方式,一般是通过binlog方式,变更的记录会写入binlog,解析binlog后会写入消息系统,或直接基于Flink CDC进行处理。一是基于查询的,客户端会通过SQL方式查询源库表变更数据,然后对外发送。这种 CDC 技术是入侵式的,需要在数据源执行 SQL 语句。,即变更数据捕获,主要面向数据库的变更,是是数据库领域非常常见的技术,主要用于捕获数据库的一些变更,然后可以把变更数据发送到下游。警告对于指令执行并没有什么影响,但还是看着不舒服,通过这种方式可以解决。原创 2024-04-11 16:47:53 · 1088 阅读 · 0 评论 -
Hudi原理学习
第四步:如果是 update 消息,写对应的 file group + file slice,直接 append 最新的 log file(如果碰巧是当前最小的小文件,会 merge base file,生成新的 file slice)log file 大小达到阈值会 roll over 一个新的。第三步:如果有小的 base file 文件,merge base file,生成新的 FileSlice + base file,否则直接写新的 FileSlice + base file;原创 2024-04-11 16:45:26 · 1088 阅读 · 0 评论