自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(476)
  • 资源 (11)
  • 收藏
  • 关注

原创 Spark eventlog

【代码】Spark eventlog。

2025-03-12 15:37:53 339

原创 PDF Reader

PDF

2025-03-12 11:20:01 337

原创 Spark Plan Optimization (future)

参考链接:

2025-03-10 19:27:53 25

原创 Trino 代码剖析

Trino

2025-03-10 12:03:23 26

原创 Velox 之单元测试

【代码】Velox 之单元测试。

2025-03-06 11:45:58 101

原创 C++ 测试案例

【代码】C++ 测试案例。

2025-03-05 16:59:52 115

原创 Velox 之 Expression

Velox

2025-03-04 17:52:31 30

原创 Spark2 之 Build

这里 可见 ENABLE_BENCHMARK 和 ENABLE_TESTS 不能共同选 ON,选了也没共生的效果。

2025-02-19 16:57:47 330

原创 Spark2之Profiling

参考链接:

2025-02-18 17:09:42 23

原创 Velox 之 vector

参考链接。

2025-02-11 10:53:08 49

原创 数据结构之排序

参考链接:

2025-02-08 21:05:42 173

原创 Spark 之 Aggregate

完整的聚合查询的关键字包括groupby、cube、groupingsets和rollup4种。聚合语句针对同一张表进行sum和count(distinct)查询,最终的执行过程包含了4步聚合操作。在SparkSQL中,聚合过程有4种模式,分别是Partial模式、ParitialMerge模式、Final模式和Complete模式。Complete模式和Partial/Final组合方式不一样,不进行局部聚合计算。

2025-01-17 21:17:05 986

原创 Presto 源码分析

Presto 源码分析

2025-01-14 16:57:23 232

原创 Presto 源码分析

Presto

2025-01-08 10:23:45 230

原创 Hadoop 生态之 kerberos

轻型目录访问协议(英文:Lightweight Directory Access Protocol,缩写:LDAP,/ˈɛldæp/)是一个开放的,中立的,工业标准的应用协议,通过IP协议提供访问控制和维护分布式信息的目录信息。

2025-01-07 15:58:29 247

原创 Spark Runtime Filter

RuntimeFilter

2024-12-30 14:40:03 591

原创 Spark 之 partitons

【代码】Spark 之 partitons。

2024-12-09 17:13:04 285

原创 Spark SQL 之 QueryStage

ExchangeQueryStageExec 分为两种。

2024-11-22 10:56:09 334

原创 Spark 之 SparkSessionExtensions

【代码】Spark 之 SparkSessionExtensions。

2024-11-20 15:38:03 433

原创 Spark SQL corner case

null 既不参与 IN 表达式的计算 ,也不参与 NOT IN 表达式的计算,如果数据中存在 null ,则这两个表达式。得到的结果之和并不等于总的数据结果。

2024-11-18 20:00:34 135

原创 Spark 之 EnsureRequirements

【代码】Spark 之 ensureDistributionAndOrdering。

2024-11-18 17:34:13 250

原创 github actions

这是资源找不到,网络原因导致。

2024-11-15 20:56:40 220

原创 Spark 之 Cache

这种情况是RDD的数据经过缓存,此时不需要网络传输,是最优locality。数据与Task在同机架的不同节点,此时需要通过网络传输,速度比NODE_LOCAL慢。数据和Task可能在集群的任何地方,性能最差,一般出现这种情况就该排查原因了。数据从哪访问都一样,相当于没有数据本地性,一般值从外部数据源读取数据。(1)数据和Task在同一节点上的不同executor中;即数据和Task在同一个Excutor JVM中。(2)数据HDFS和Task在同一个结点上,要处理的数据在同一个本地进程,

2024-11-13 11:49:08 412

原创 Spark Plan 之 SQLMetric

Spark Plan 包含以下基本 方法,

2024-11-08 11:56:54 323

原创 Delta Lake

Delta Lake 是经过优化的存储层,为 Databricks 上湖屋中的表提供了基础。Delta Lake 是开源软件,它使用基于文件的事务日志扩展了 Parquet 数据文件,可以处理 ACID 事务和可缩放的元数据。Delta Lake 与 Apache Spark API 完全兼容,并且其设计能够与结构化流式处理紧密集成,让你可以轻松地将单个数据副本用于批处理和流式处理操作,并提供大规模增量处理。Delta Lake 是 Azure Databricks 上所有操作的默认格式。

2024-11-07 14:56:35 560

原创 Spark CBO

参考链接。

2024-11-01 11:20:38 142

原创 Spark DPP

参考链接。

2024-10-29 10:23:18 147

原创 Spark 之 HistoryServer and FsHistoryProvider

【代码】Spark 之 FsHistoryProvider。

2024-10-28 20:07:47 353

原创 Spark 之 SparkListenerBus

【代码】Spark 之 SparkListenerBus。

2024-10-28 14:53:57 268

原创 Spark 异常信息收集

【代码】Spark 异常信息收集。

2024-10-16 21:47:40 293

原创 HDFS 之 ReplaceDatanodeOnFailure

这边比较的先决配置就是。

2024-09-13 11:33:48 172

原创 Salting technique

Spark

2024-09-12 15:16:17 516

原创 Yarn 源码

监测 container 资源使用的进程,默认是 3秒 检测一次。

2024-09-06 20:43:22 211 1

原创 CPU性能工程

CPU bounding” 是一个术语,用来描述计算任务的性能瓶颈主要受限于CPU的计算能力。具体来说,当我们说一个任务是“CPU bounding”时,意味着它的运行速度和效率主要受到CPU计算能力的限制,而不是其他因素如I/O操作、网络延迟或内存带宽等。

2024-08-09 10:46:06 160

原创 HDFS 之 文件流

read 接口的关键逻辑在以下 pread 接口。遇到临界位置, 这边起主要作用。

2024-08-05 12:13:54 288

原创 S3A FileSystem

S3A

2024-07-22 17:24:49 327

原创 pyspark

Spark

2024-06-26 17:21:38 434

原创 hadoop-cos

【代码】hadoop-cos。

2024-06-13 14:53:05 303

原创 HiveMetastore

【代码】HiveMetastore。

2024-06-04 15:22:43 604

原创 Spark 之 HiveStrategies

Spark

2024-06-04 14:29:37 540 1

Spring Boot in Action

A developer-focused guide to writing applications using Spring Boot. You'll learn how to bypass the tedious configuration steps so that you can concentrate on your application's behavior., Spring Boot in Action is a developer-focused guide to writing applications using Spring Boot. In it, you?ll learn how to bypass configuration steps so you can focus on your application?s behavior. Spring expert Craig Walls uses interesting and practical examples to teach you both how to use the default settings effectively and how to override and customize Spring Boot for your unique environment. Along the way, you?ll pick up insights from Craig?s years of Spring development experience.

2017-11-23

深入理解Spark 核心思想与源码分析.pdf

深入理解Spark 核心思想与源码分析 深入理解Spark 核心思想与源码分析 深入理解Spark 核心思想与源码分析

2017-10-18

从PAXOS到ZOOKEEPER 国人写的技术实践书 分布式

从PAXOS到ZOOKEEPER分布一致性原理与实践 上传限60M,所以打成压缩包,内为pdf 从PAXOS到ZOOKEEPER分布一致性原理与实践 上传限60M,所以打成压缩包,内为pdf

2017-09-22

机器学习实战 英文版 Machine Learning in Action 书中所有代码和数据集

完整的源码 数据集 机器学习实战 英文版 Machine Learning in Action 代码和数据集 机器学习实战 英文版 Machine Learning in Action 代码和数据集 机器学习实战 英文版 Machine Learning in Action 代码和数据集

2017-09-13

机器学习实战 英文版 Machine Learning in Action

高清 带书签 机器学习实战 英文版 Machine Learning in Action 机器学习实战 英文版 Machine Learning in Action 机器学习实战 英文版 Machine Learning in Action 机器学习实战 英文版 Machine Learning in Action

2017-09-13

机器学习实战 中文版

机器学习实战 中文版 机器学习实战 中文版 机器学习实战 中文版 机器学习实战 中文版 机器学习实战 中文版 机器学习实战 中文版

2017-09-13

数据库实现英文第二版 Database System Implementation

数据库实现英文第二版 Database System Implementation 数据库实现英文第二版 Database System Implementation 有书签 高清 机械工业出版社

2017-09-11

yammer metrics-2.2.0 源码

yammer metrics-2.2.0 源码 yammer metrics-2.2.0 源码 yammer metrics-2.2.0 源码 yammer metrics-2.2.0 源码

2017-09-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除