自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 【flink】项目初始化

【代码】【flink】项目初始化。

2023-09-26 16:49:40 58

原创 【flink】sql文件解析提交

【代码】【flink】sql文件解析提交。

2023-09-22 17:33:16 95 1

原创 【paimon】博客汇总

paimon的写入流程paimon的读取流程

2023-09-21 16:50:41 71

转载 【Flink】 Upsert 乱序问题

业务中,偶尔会接到某订单数据无法在 es 中查询,经添加日志排查,发现,某个订单维表数据发生变更,最后 -D 事件和 +I 事件发生了乱序,在进入 es 时,先执行了 +I 事件,再执行了 -D 事件,于是,es 数据丢失。否则,就说明发生了乱序。另外,我们在写 sql 时,要关注 join key ,尽量优化 sql,让它以 upsert key 做 shuffle,减少出现多重乱序的 join sql,来减少数据异常。数据更新时,在某些情况下,如关联的表够多,并行度够大,可能会有概率出现数据乱序问题。

2023-09-21 15:56:27 94

原创 【flink】丢弃+u数据

此案例可以实现如果状态流转结束,实现数据删除,从而可以降低数据量。

2023-09-21 15:31:43 62

转载 【转载】探索Apache Hudi核心概念 (2) - File Sizing

在本系列的文章中,我们通过探索了COW表和MOR表的文件布局,在数据的持续写入与更新过程中,Hudi严格控制着文件的大小,以确保它们始终处于合理的区间范围内,从而避免大量小文件的出现,Hudi的这部分机制就称作“File Sizing”。本文,我们就针对COW表和MOR表的File Sizing进行一次深度探索。,转载请注明出处!

2023-09-11 16:23:48 45

转载 【转载】探索Apache Hudi核心概念 (1) - File Layouts

项目名称项目地址Notebook的运行环境使用的是Amazon EMR Studio(一种面向Amazon EMR的托管Notebook环境),如果您没有AWS账号,可以自行修改Notebook适配到任何支持Spark Kernel的Notebook环境中。Notebook还使用了一个公共数据集:Amazon Customer Reviews,它是Amazon购物网站上的用户评价数据,总体积50GB,存放在S3上,地址:s3://amazon-reviews-pds1。

2023-09-11 16:16:29 26

原创 【大数据】CDH环境搭建

主节点启动serve。

2023-09-10 14:52:27 40 1

转载 【转载】深入浅出分析LSM树(日志结构合并树)

深入浅出分析LSM树(日志结构合并树)

2023-09-09 17:25:04 49

原创 【hive】SQL之连续登录

在日常工作进行数据的ETL或者面试时,经常遇到类似的问题,比如"统计连续N天交易额超过100万的店铺"、"统计连续登录天数超过3天的用户"等。对于这类问题,思路基本都是一样的。本文将介绍常用的两种解决方案。如何是连续的应该和需要是一样的,如果有跳变(断层)说明不是连续。以"统计连续登录天数超过3天的用户"为需求。

2023-09-09 16:47:04 248

原创 【flink】flink整合minio

【代码】【flink】flink整合minio。

2023-09-09 16:36:50 614 1

原创 【flink】自定义flink-socket-connector

用户自定义 Sources & Sinks概述实心箭头展示了在转换过程中对象如何从一个阶段到下一个阶段转换为其他对象。元数据Table API 和 SQL 都是声明式 API。这包括表的声明。因此,执行 CREATE TABLE 语句会导致目标 catalog 中的元数据更新。对于大多数 catalog 实现,外部系统中的物理数据不会针对此类操作进行修改。特定于连接器的依赖项不必存在于类路径中。在 WITH 子句中声明的选项既不被验证也不被解释。动态表的元数据( 通过 DDL 创建或由

2023-09-09 16:02:33 237

原创 【spark】UDAF自定义函数

saprk版本3.4.1。

2023-09-09 15:45:29 37

原创 【spark】代码环境搭建

【代码】【spark】代码环境搭建。

2023-09-09 15:35:30 23

原创 【hive】sql求解topN

2023-07-07-15,2023-07-15 00:00:00,102325,223.116.97.23,中国,北京。

2023-09-09 15:29:33 58

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除