自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Trino基础介绍

前身是Presto(Facebook),在2020,由于项目治理和技术方向的差异,部分Presto核心开发人员和社区成员从Presto项目中分离出来,创建了一个名为Trino(原名PrestoSQL,由于版权问题改名)的新项目。Trino保留了Presto的核心功能和特点,并继续发展和改进。总结起来,Presto和Trino是同一个项目的不同版本和分支。Trino是在Presto项目的基础上演化而来的,保留了Presto的核心特性和目标,同时由一个独立的开发和维护团队进行管理。

2024-07-20 23:23:33 632

原创 Spark web UI 介绍

打开 Spark UI,首先映入眼帘的是默认的 Jobs 页面。Jobs 页面记录着应用中涉及的 Actions 动作,以及与数据读取、移动有关的动作。其中,每一个 Action 都对应着一个 Job,而每一个 Job 都对应着一个作业。可以看到,导航条最左侧是 Spark Logo 以及版本号,后面则依次罗列着 6 个一级入口。每个入口的功能与作用如下的表格介绍其中Spark Properties 是重点,其中记录着所有在运行时生效的 Spark 配置项设置。

2024-06-23 16:52:06 997

原创 Spark 中如何去处理数据倾斜

在大数据环境中,使用分布式计算引擎(hive, spark, flink)在进行数据处理时, 在某个(stage)阶段中的某个task运行的数据量/时长的结果远超该stage内task的平均运行的数据量/时长的(N倍)时, 认定为数据倾斜, 其本质是数据分布不均衡, 常常伴随着内存溢出和报错。spark会自动将倾斜分区拆成多个分区进行join, 默认判断是某分区的数据量超过平均分区数据量5倍以上会被spark进行拆分。

2024-06-23 16:11:38 964

原创 Spark资源调优手册

性能调优该如何去做?面对成百上千的业务代码、近百个spark 配置项该如何入手?这里帮大家简单的归纳了下与性能调优相关的配置项,并从如何去评估资源出发,让我们在进行资源设置的时候有所依据。

2024-06-23 14:50:06 894

原创 Spark AQE 特性怎么能使用好?

AQE 是 Spark SQL 的一种动态优化机制,它的诞生解决了 RBO、CBO,这些启发式、静态优化机制的局限性。想要用好 AQE,我们就要掌握它的特点,以及它支持的三种优化特性的工作原理和使用方法。如果用一句话来概括 AQE 的定义,就是每当 Shuffle Map 阶段执行完毕,它都会结合这个阶段的统计信息,根据既定的规则和策略动态地调整、修正尚未执行的逻辑计划和物理计划,从而完成对原始查询语句的运行时优化。

2024-06-03 12:00:51 1092

原创 Yarn 基础知识扫盲

笔者自己以前一直在做实时开发方面的工作,对Yarn 其实并不是很了解,只是简单用而已。但最近的工作中要开始涉及这里的使用。所以准备重新学习下,并记录下来。思考:如何管理集群资源?如何给任务合理分配资源?Yarn 就是解决上述问题的产物。Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce、Spark、Flink 等运算程序则相当于运行于操作系统之上的应用程序。

2024-05-26 22:55:54 674

原创 Doris与ClickHouse 对比

相比较ClickHouse,Doris 是一款更容易使用且更容易维护的数据库。但是从查询支持的功能性以及极致的查询效率来看总体上时不如ClickHouse的。

2024-05-12 23:24:28 372 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除