海色风铃
码龄4年
关注
提问 私信
  • 博客:3,360
    3,360
    总访问量
  • 11
    原创
  • 2,191,224
    排名
  • 0
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:河南省
  • 加入CSDN时间: 2020-09-04
博客简介:

weixin_50573352的博客

查看详细资料
个人成就
  • 获得1次点赞
  • 内容获得4次评论
  • 获得5次收藏
创作历程
  • 15篇
    2023年
成就勋章
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【flink】项目初始化

【代码】【flink】项目初始化。
原创
发布博客 2023.09.26 ·
115 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【flink】sql文件解析提交

【代码】【flink】sql文件解析提交。
原创
发布博客 2023.09.22 ·
164 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【paimon】博客汇总

paimon的写入流程paimon的读取流程
原创
发布博客 2023.09.21 ·
118 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【Flink】 Upsert 乱序问题

业务中,偶尔会接到某订单数据无法在 es 中查询,经添加日志排查,发现,某个订单维表数据发生变更,最后 -D 事件和 +I 事件发生了乱序,在进入 es 时,先执行了 +I 事件,再执行了 -D 事件,于是,es 数据丢失。否则,就说明发生了乱序。另外,我们在写 sql 时,要关注 join key ,尽量优化 sql,让它以 upsert key 做 shuffle,减少出现多重乱序的 join sql,来减少数据异常。数据更新时,在某些情况下,如关联的表够多,并行度够大,可能会有概率出现数据乱序问题。
转载
发布博客 2023.09.21 ·
227 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【flink】丢弃+u数据

此案例可以实现如果状态流转结束,实现数据删除,从而可以降低数据量。
原创
发布博客 2023.09.21 ·
150 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【转载】探索Apache Hudi核心概念 (2) - File Sizing

在本系列的文章中,我们通过探索了COW表和MOR表的文件布局,在数据的持续写入与更新过程中,Hudi严格控制着文件的大小,以确保它们始终处于合理的区间范围内,从而避免大量小文件的出现,Hudi的这部分机制就称作“File Sizing”。本文,我们就针对COW表和MOR表的File Sizing进行一次深度探索。,转载请注明出处!
转载
发布博客 2023.09.11 ·
92 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【转载】探索Apache Hudi核心概念 (1) - File Layouts

项目名称项目地址Notebook的运行环境使用的是Amazon EMR Studio(一种面向Amazon EMR的托管Notebook环境),如果您没有AWS账号,可以自行修改Notebook适配到任何支持Spark Kernel的Notebook环境中。Notebook还使用了一个公共数据集:Amazon Customer Reviews,它是Amazon购物网站上的用户评价数据,总体积50GB,存放在S3上,地址:s3://amazon-reviews-pds1。
转载
发布博客 2023.09.11 ·
53 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【大数据】CDH环境搭建

主节点启动serve。
原创
发布博客 2023.09.10 ·
75 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

【转载】深入浅出分析LSM树(日志结构合并树)

深入浅出分析LSM树(日志结构合并树)
转载
发布博客 2023.09.09 ·
100 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【hive】SQL之连续登录

在日常工作进行数据的ETL或者面试时,经常遇到类似的问题,比如"统计连续N天交易额超过100万的店铺"、"统计连续登录天数超过3天的用户"等。对于这类问题,思路基本都是一样的。本文将介绍常用的两种解决方案。如何是连续的应该和需要是一样的,如果有跳变(断层)说明不是连续。以"统计连续登录天数超过3天的用户"为需求。
原创
发布博客 2023.09.09 ·
474 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

【flink】flink整合minio

【代码】【flink】flink整合minio。
原创
发布博客 2023.09.09 ·
1125 阅读 ·
0 点赞 ·
2 评论 ·
2 收藏

【flink】自定义flink-socket-connector

用户自定义 Sources & Sinks概述实心箭头展示了在转换过程中对象如何从一个阶段到下一个阶段转换为其他对象。元数据Table API 和 SQL 都是声明式 API。这包括表的声明。因此,执行 CREATE TABLE 语句会导致目标 catalog 中的元数据更新。对于大多数 catalog 实现,外部系统中的物理数据不会针对此类操作进行修改。特定于连接器的依赖项不必存在于类路径中。在 WITH 子句中声明的选项既不被验证也不被解释。动态表的元数据( 通过 DDL 创建或由
原创
发布博客 2023.09.09 ·
379 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【spark】UDAF自定义函数

saprk版本3.4.1。
原创
发布博客 2023.09.09 ·
50 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【spark】代码环境搭建

【代码】【spark】代码环境搭建。
原创
发布博客 2023.09.09 ·
38 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【hive】sql求解topN

2023-07-07-15,2023-07-15 00:00:00,102325,223.116.97.23,中国,北京。
原创
发布博客 2023.09.09 ·
110 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多