文辳-CSDN博客

原创 Linux Top 命令 load average 指标解读

作为平台开发的同学，维护平台稳定性是我们最基本的工作职责，下面主要介绍下top 命令里，load average 这个指标如何去衡量机器负载程度。

2025-01-14 20:36:38 1663

原创 Trino UDF开发

笔者公司的Trino环境是 v460,下面演示当前版本的的 UDF开发步骤，并附上我这里在开发中遇到的问题，帮助小白快速入门。

2025-01-10 18:17:54 876

原创 Flink on Yarn运行模式下三种部署模式的区别与联系

特性/模式集群共享性一个集群多个作业共享每个作业独立使用一个集群每个作业独立使用一个集群JobManager长期运行的 JobManager，多个作业共享一个 JobManager每个作业启动独立的 JobManager每个作业启动独立的 JobManager，JobManager 与 YARN 应用生命周期绑定作业数量支持多个作业，作业共享资源每个作业是独立的每个作业是独立的作业生命周期作业提交后，集群持续运行，直到手动停止作业完成后，集群会被销毁作业完成后，集群会被销毁代码解析位置。

2025-01-05 21:47:16 817 1

原创 HDFS基础扫盲(二)

HDFS 在线上生产环境中基本我们不会使用2NN ,主要是部署NN 高可用。那么这个模式中2NN 的工作由谁来做，为啥会用这种模式？

2025-01-04 19:54:45 945

原创 HDFS基础扫盲(一)

NameNode 的元数据是保存在内存还是磁盘，如果是内存那满了后怎么办，自己会进行溢写嘛？带着这个问题，我们一起来复习下NN,2NN,DN 的工作机制和原理

2025-01-04 19:24:29 933

原创 Flink固定重启策略与失败率重启策略最佳实践

Flink 的重启策略应该怎么样选择，哪种场景应该用什么？请看下文

2024-12-30 17:36:29 442

原创 Flink 如何部署在没有Hadoop的机器上

在模式下，Flink 不需要与 Hadoop 部署在同一台机器上，它其实只需要能够访问 Hadoop 集群的环境，包括YARN（资源管理器）和HDFS（文件存储）。这样，Flink 可以通过 YARN 调度资源，并使用 HDFS 存储数据。且更推荐Flink 单独部署，下面会给大家具体介绍，并有实际操作步骤。

2024-12-28 21:30:53 1314

原创 Trino worker 节点自检自恢复方案

确保系统的高可用性、稳定性和性能，特别是在大规模数据处理或复杂查询负载下，节点故障不可避免时，能够快速恢复并减少人工干预。对于高并发和分布式计算框架，即便是少数节点故障也可能对整个系统的查询性能和稳定性产生较大影响。因此，自检自恢复机制是非常重要的。

2024-12-21 21:47:45 653

原创 Trino 资源组功能测试并与Yarn对比思考

在 OLAP 引擎中，资源组主要作用是合理分配计算资源、保证查询的公平性和优先级，避免单个查询消耗过多资源。通过这种方式，可以提高查询的吞吐量、稳定性和系统的可扩展性，尤其是在处理复杂分析任务和大规模数据时。

2024-12-21 21:06:52 996

原创 Trino基础介绍

前身是Presto（Facebook），在2020，由于项目治理和技术方向的差异，部分Presto核心开发人员和社区成员从Presto项目中分离出来，创建了一个名为Trino（原名PrestoSQL，由于版权问题改名）的新项目。Trino保留了Presto的核心功能和特点，并继续发展和改进。总结起来，Presto和Trino是同一个项目的不同版本和分支。Trino是在Presto项目的基础上演化而来的，保留了Presto的核心特性和目标，同时由一个独立的开发和维护团队进行管理。

2024-07-20 23:23:33 1019

原创 Spark web UI 介绍

打开 Spark UI，首先映入眼帘的是默认的 Jobs 页面。Jobs 页面记录着应用中涉及的 Actions 动作，以及与数据读取、移动有关的动作。其中，每一个 Action 都对应着一个 Job，而每一个 Job 都对应着一个作业。可以看到，导航条最左侧是 Spark Logo 以及版本号，后面则依次罗列着 6 个一级入口。每个入口的功能与作用如下的表格介绍其中Spark Properties 是重点，其中记录着所有在运行时生效的 Spark 配置项设置。

2024-06-23 16:52:06 2936

原创 Spark 中如何去处理数据倾斜

在大数据环境中，使用分布式计算引擎(hive, spark, flink)在进行数据处理时, 在某个(stage)阶段中的某个task运行的数据量/时长的结果远超该stage内task的平均运行的数据量/时长的(N倍)时, 认定为数据倾斜, 其本质是数据分布不均衡, 常常伴随着内存溢出和报错。spark会自动将倾斜分区拆成多个分区进行join, 默认判断是某分区的数据量超过平均分区数据量5倍以上会被spark进行拆分。

2024-06-23 16:11:38 2129

原创 Spark资源调优手册

性能调优该如何去做？面对成百上千的业务代码、近百个spark 配置项该如何入手？这里帮大家简单的归纳了下与性能调优相关的配置项，并从如何去评估资源出发，让我们在进行资源设置的时候有所依据。

2024-06-23 14:50:06 1033

原创 Spark AQE 特性怎么能使用好？

AQE 是 Spark SQL 的一种动态优化机制，它的诞生解决了 RBO、CBO，这些启发式、静态优化机制的局限性。想要用好 AQE，我们就要掌握它的特点，以及它支持的三种优化特性的工作原理和使用方法。如果用一句话来概括 AQE 的定义，就是每当 Shuffle Map 阶段执行完毕，它都会结合这个阶段的统计信息，根据既定的规则和策略动态地调整、修正尚未执行的逻辑计划和物理计划，从而完成对原始查询语句的运行时优化。

2024-06-03 12:00:51 2342

原创 Yarn 基础知识扫盲

笔者自己以前一直在做实时开发方面的工作，对Yarn 其实并不是很了解，只是简单用而已。但最近的工作中要开始涉及这里的使用。所以准备重新学习下，并记录下来。思考：如何管理集群资源？如何给任务合理分配资源？Yarn 就是解决上述问题的产物。Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce、Spark、Flink 等运算程序则相当于运行于操作系统之上的应用程序。

2024-05-26 22:55:54 786