自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

阳龙生

阳龙生

  • 博客(22)
  • 收藏
  • 关注

原创 再读周志明老师的凤凰架构

了解某个技术从学术到工业,从论文到代码,对深入理解一项技术非常重要。

2023-05-26 15:13:15 264

翻译 提升Hudi的UpSert效率的最重要的三件事

我遇到的最重要的问题之一是Hudi如何执行插入和更新,确保低延迟访问最新数据。

2023-05-15 10:16:23 669

转载 本地事务如何实现隔离性?

这四种隔离级别属于数据库的基础知识,多数大学的计算机课程应该都会讲到,但不少教材、资料都把它们当作数据库的某种固有设定来进行讲解,导致很多人只能对这些现象死记硬背。其实,不同隔离级别以及幻读、脏读等问题都只是表面现象,它们是各种锁在不同加锁时间上组合应用所产生的结果,锁才是根本的原因。

2023-05-14 08:48:43 354

翻译 Delta, Hudi, and Iceberg: 数据湖仓三重奏

Delta Lake、Apache Hudi和Apache Iceberg之间的选择将取决于对其各自功能、权衡以及与组织目标的一致性的仔细评估。通过彻底了解每个解决方案的功能,组织可以确保一个经得起未来考验的Data Lakehouse基础设施,该基础设施有助于数据驱动的决策,并释放新的见解来推动业务增长。

2023-05-08 09:13:58 548

翻译 数据分析的新时代:探索数据湖仓(Data Lakehouse)架构的创新世界

在本文中,我们将更深入地研究湖仓一体的架构和组件,探索让这一开创性解决方案成为可能的相关技术。

2023-05-07 18:37:31 293

翻译 数据湖仓(湖仓融合):可扩展、敏捷和经济高效的数据基础设施的未来

翻译:阳龙生 深入了解数据湖仓(作为数据管理未来)的崛起,提供可扩展、灵活和经济高效的解决方案,使组织能够在当今快节奏的数字世界中充分发挥其数据的潜力。在当今这个数据驱动的世界,各行各业的企业越来越依赖数据仓库和数据湖解决方案来存储、处理和分析其不断增长的数据。这些传统方法在帮助组织释放数据中隐藏的价值、推动知情决策方面发挥了至关重要的作用。然而,随着数据管理问题的不断发展,企业面临着与数据量、多样性和速度相关的新挑战,以及对实时展现、高级分析和机器学习能力的需求。

2023-05-07 08:14:24 271

原创 中心化,去中心化架构系列文章

最古早的当然是中心化架构,大数据领域常常会谈到去中心化的架构,但其实绝大部分大数据组件都不是完全去中心化架构的,或者说其实是动态中心化架构的,不管是hdfs的NamaNode,DataNode,还是Hbase的HMaster,HRegionServer,Yarn的ResourceManager,NodeManager。我不知道是否有应当作为信仰的技术,更大可能是每种技术只是解决了某个特定领域的问题,人们最终的需求并不是技术,而是帮他们解决问题的方案。

2023-05-05 10:54:46 293

翻译 Spark写入Hudi的分区推断

spark写入Hudi哪些配置可以简化?

2023-04-27 11:10:35 581 1

转载 深入解读Flink1.17

flink1.17有什么新特性,来看看吧

2023-04-27 09:49:48 632

原创 Flink写入Kafka的connector变更之源码解析

flink1.14的kafkaSink有什么变化?

2023-03-25 10:27:16 431

原创 kafka生产者源码拆解(2)

上次源码拆解中我们了解到它是一个一个批次,一条一条消息组成的批次,而将消息一条一条加入到队列中以及怎么封装批次这个过程的代码也非常值得我们学习,主要在以下方法:org.apache.kafka.clients.producer.internals.RecordAccumulator#append。

2023-03-11 20:23:36 145

原创 我们应当如何看待读源码

写项目是从小到大,一个一个模块写出来的,写的过程你的思路是清晰的,你知道你在要完成什么目的,每一行代码在做什么,但是对于阅读者它是一个网状的结构,类之间调用跳转,如同迷宫一样,阅读者很容易迷失在里面,不知道自己在干什么。对于即将出现的代码块,阅读并不知道它的意图,这是一个破案的过程。项目优秀不代表代码字字珠玑,现在项目越来越大,参与的人越来越多,水平良莠不齐,我们依然需要批判性的眼光,取其精华,忽略其糟粕,取其思想,忽略细节,我们要知道什么地方是核心代码,核心设计,不要在细节处浪费时间。

2023-03-11 09:02:36 100

原创 kafka生产者源码拆解(1)

查看Kafka生产者(org.apache.kafka.clients.producer.KafkaProducer)源码可以看到每条消息经过封装,拦截器,序列化器,分区器之后会放到一个RecordAccumulator的缓冲池中,这个对象里面有一个重要属性他会给每个topic每个分区分配一个队列,每条消息就这样会放到这个map里面。等待着Sender线程来这里取数据真正的发送出去。

2023-03-10 19:46:11 145

原创 hadoop写数据到journalNode源码细节优化对比

nameNode写数据到journalNode超时问题的官方优化思路学习

2023-03-08 13:35:37 187

原创 DolphinScheduler工作流上下线问题源码分析

当我们在ds上工作流比较多了之后,工作流需要修改的时候会发现一个问题:我们会反复的下线,查找,修改,上线,下线,查找,修改……

2023-02-08 10:54:29 410

原创 双缓存提升写磁盘的效率

大家都知道读磁盘不是一个字节一个字节读的,写磁盘也不是一个字节一个字节写的,所以当中会用到缓存,缓存在计算机领域无处不在,当有持续不断的数据流需要写到内存,并从内存写到磁盘的时候,我们可以用到双缓存,提高效率,其中一个缓存刷到磁盘的时候不会影响另一个缓存添加内容,在很多大数据组件源码中都有这样的应用以应对高并发场景。接下来是最重要的核心添加日志数据和刷写磁盘的代码,其中对锁和volatile关键字的使用特别重要。其次我们定义一个缓存,用来存放日志数据。

2022-11-27 20:56:27 754

原创 如何让你的flink job任务数据流在各subtask均匀分布

如何让你的flink job任务数据流在各subtask均匀分布

2022-09-23 22:49:05 863

原创 Azkaban任务依赖你有深入了解吗

azkaban的business date在上下游依赖中有着重要作用,却常常被忽略,我们都知道下游任务依赖上游任务,但具体问题是

2022-09-07 19:50:33 581

原创 clickhouse集群方案及表引擎最佳实践

clickhouse集群方案使用起来会比单机版复杂不少,来看看我们踩过的坑吧,从建库,建表,到语句,引擎,给你保姆级别的案例

2022-07-10 10:03:29 620

原创 clickhouse的sql语法独特之处

clickhouse sql语法执行顺序特别之处

2022-05-14 08:03:09 935 1

原创 clickhouse物化视图最佳实践样例

clickhouse的视图是一段sql逻辑很好理解,而物化视图不太一样,简单可以理解为将sql的结果存下来,这样可以加速查询,但事实当然不只是这样,最主要的是原表的变化会触发视图表的数据增加,clickhouse物化视图除了常用的sql语句,还有其独特的语法,在特定时候有奇效

2022-05-08 12:29:58 1142

原创 dolphinscheduler3.0.0任务日志中打N遍sql的问题

dolphinscheduler3.0.0任务报错打N遍sql的问题

2021-03-27 16:52:38 1174 1

windows_surveyking_v1.4.0.zip

windows_surveyking_v1.4.0.zip

2023-06-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除