yangls的技术博客-CSDN博客

原创再读周志明老师的凤凰架构

了解某个技术从学术到工业，从论文到代码，对深入理解一项技术非常重要。

2023-05-26 15:13:15 264

翻译提升Hudi的UpSert效率的最重要的三件事

我遇到的最重要的问题之一是Hudi如何执行插入和更新，确保低延迟访问最新数据。

2023-05-15 10:16:23 669

转载本地事务如何实现隔离性？

这四种隔离级别属于数据库的基础知识，多数大学的计算机课程应该都会讲到，但不少教材、资料都把它们当作数据库的某种固有设定来进行讲解，导致很多人只能对这些现象死记硬背。其实，不同隔离级别以及幻读、脏读等问题都只是表面现象，它们是各种锁在不同加锁时间上组合应用所产生的结果，锁才是根本的原因。

2023-05-14 08:48:43 354

翻译 Delta, Hudi, and Iceberg: 数据湖仓三重奏

Delta Lake、Apache Hudi和Apache Iceberg之间的选择将取决于对其各自功能、权衡以及与组织目标的一致性的仔细评估。通过彻底了解每个解决方案的功能，组织可以确保一个经得起未来考验的Data Lakehouse基础设施，该基础设施有助于数据驱动的决策，并释放新的见解来推动业务增长。

2023-05-08 09:13:58 548

翻译数据分析的新时代：探索数据湖仓（Data Lakehouse）架构的创新世界

在本文中，我们将更深入地研究湖仓一体的架构和组件，探索让这一开创性解决方案成为可能的相关技术。

2023-05-07 18:37:31 293

翻译数据湖仓（湖仓融合）：可扩展、敏捷和经济高效的数据基础设施的未来

翻译：阳龙生深入了解数据湖仓（作为数据管理未来）的崛起，提供可扩展、灵活和经济高效的解决方案，使组织能够在当今快节奏的数字世界中充分发挥其数据的潜力。在当今这个数据驱动的世界，各行各业的企业越来越依赖数据仓库和数据湖解决方案来存储、处理和分析其不断增长的数据。这些传统方法在帮助组织释放数据中隐藏的价值、推动知情决策方面发挥了至关重要的作用。然而，随着数据管理问题的不断发展，企业面临着与数据量、多样性和速度相关的新挑战，以及对实时展现、高级分析和机器学习能力的需求。

2023-05-07 08:14:24 271

原创中心化，去中心化架构系列文章

最古早的当然是中心化架构，大数据领域常常会谈到去中心化的架构，但其实绝大部分大数据组件都不是完全去中心化架构的，或者说其实是动态中心化架构的，不管是hdfs的NamaNode，DataNode，还是Hbase的HMaster，HRegionServer，Yarn的ResourceManager，NodeManager。我不知道是否有应当作为信仰的技术，更大可能是每种技术只是解决了某个特定领域的问题，人们最终的需求并不是技术，而是帮他们解决问题的方案。

2023-05-05 10:54:46 293

翻译 Spark写入Hudi的分区推断

spark写入Hudi哪些配置可以简化？

2023-04-27 11:10:35 581 1

转载深入解读Flink1.17

flink1.17有什么新特性，来看看吧

2023-04-27 09:49:48 632

原创 Flink写入Kafka的connector变更之源码解析

flink1.14的kafkaSink有什么变化？

2023-03-25 10:27:16 431

原创 kafka生产者源码拆解（2）

上次源码拆解中我们了解到它是一个一个批次，一条一条消息组成的批次，而将消息一条一条加入到队列中以及怎么封装批次这个过程的代码也非常值得我们学习，主要在以下方法：org.apache.kafka.clients.producer.internals.RecordAccumulator#append。

2023-03-11 20:23:36 145

原创我们应当如何看待读源码

写项目是从小到大，一个一个模块写出来的，写的过程你的思路是清晰的，你知道你在要完成什么目的，每一行代码在做什么，但是对于阅读者它是一个网状的结构，类之间调用跳转，如同迷宫一样，阅读者很容易迷失在里面，不知道自己在干什么。对于即将出现的代码块，阅读并不知道它的意图，这是一个破案的过程。项目优秀不代表代码字字珠玑，现在项目越来越大，参与的人越来越多，水平良莠不齐，我们依然需要批判性的眼光，取其精华，忽略其糟粕，取其思想，忽略细节，我们要知道什么地方是核心代码，核心设计，不要在细节处浪费时间。

2023-03-11 09:02:36 100

原创 kafka生产者源码拆解（1）

查看Kafka生产者（org.apache.kafka.clients.producer.KafkaProducer）源码可以看到每条消息经过封装，拦截器，序列化器，分区器之后会放到一个RecordAccumulator的缓冲池中，这个对象里面有一个重要属性他会给每个topic每个分区分配一个队列，每条消息就这样会放到这个map里面。等待着Sender线程来这里取数据真正的发送出去。

2023-03-10 19:46:11 145

原创 hadoop写数据到journalNode源码细节优化对比

nameNode写数据到journalNode超时问题的官方优化思路学习

2023-03-08 13:35:37 187

原创 DolphinScheduler工作流上下线问题源码分析

当我们在ds上工作流比较多了之后，工作流需要修改的时候会发现一个问题：我们会反复的下线，查找，修改，上线，下线，查找，修改……

2023-02-08 10:54:29 410

原创双缓存提升写磁盘的效率

大家都知道读磁盘不是一个字节一个字节读的，写磁盘也不是一个字节一个字节写的，所以当中会用到缓存，缓存在计算机领域无处不在，当有持续不断的数据流需要写到内存，并从内存写到磁盘的时候，我们可以用到双缓存，提高效率，其中一个缓存刷到磁盘的时候不会影响另一个缓存添加内容，在很多大数据组件源码中都有这样的应用以应对高并发场景。接下来是最重要的核心添加日志数据和刷写磁盘的代码，其中对锁和volatile关键字的使用特别重要。其次我们定义一个缓存，用来存放日志数据。

2022-11-27 20:56:27 754