自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(76)
  • 资源 (1)
  • 收藏
  • 关注

原创 数仓面试——补充缺失日期和数据

补充缺失的日期行, 以及补充其他对应的数据,从思路分析到解决问题,三种不同方式让大家更熟悉窗口函数,不同的思路,不一样的风景呢。。。

2023-03-09 14:57:21 576 1

原创 窗口函数为什么更容易出现性能问题?——一个优化案例

普通的聚合函数语句根据函数不同, 可以partial+merge的方式运行, 也就是map端预聚合;而window语句则都要在reduce端一次性聚合, 也就是只有complete执行模式。普通的聚合函数的物理执行计划分为SortBased和HashBased的;而window则都是SortBased。window语句作用于多行, 并为每行返回一个聚合结果,这决定了window在执行过程中需要更大的buffer进行汇总。

2023-03-09 11:12:48 1029

原创 SparkSql内存专题——Spark on YARN Executor整体内存理解

不管是聚合、还是join;不管它们占的空间有多大;不管它们是int类型的,还是一个大json串;不管实现整个聚合的计算用的是HashAgg 、是ObjectHashAgg 或者是SortAgg;不管实现整个JOIN的计算用的是SortMergeJoin 、是ShuffleHashJoin 、还是BroadcastHashJoin...

2023-03-09 09:58:44 999

原创 数仓面试——日期交叉问题

数据仓库面试题,日期交叉问题,从易到难,简单明了,阐明此问题sql的多种写法,欢迎交流

2023-03-02 11:29:25 305

原创 数仓面试——连续登录问题进阶版

连续登录问题是一个经典问题,现在加大难度,中间间隔一天也算连续登录,要人命啊,该怎么写呢。。。

2023-03-02 09:14:28 186

原创 数仓面试——连续登录问题

连续登录问题,是一个经典sql,本文从易到难,简单拓展,连续登录问题不再是问题。。。

2023-03-01 16:25:15 249

原创 转型【数仓开发】该怎么学

学习+练习+思考+大量练习

2023-03-01 14:28:57 306

原创 大数据开发轻量级入门方案

经过这么多年的发展,大数据的技术正处于群雄逐鹿阶段 ,面对这么多技术框架,我们得学会做减法

2023-03-01 09:37:04 281

原创 你阅读源码的心态是什么?有哪些经验分享?

如果你家里没矿,请问做什么不苦逼? 这篇主要分享我阅读源码的一些方法和心态,共勉!

2023-02-28 10:30:36 120

原创 OLAP | 基础知识梳理

还是得自己整理,梳理一遍后,清晰多了

2023-02-28 09:51:16 466

原创 你为什么从java开发转大数据? 大数据方向能走的更远吗?

我想说如果选择了一条路,那就放开去拼一把,认真实践,会有所收获。人生路上,走的每一步都算数~

2023-02-28 09:20:14 1272

原创 数据仓库开发人员怎么避免成为取数机器?

从事互联网数据仓库工作好多年了,其中最大的感触就是数据仓库开发人员每天做的最多的工作就是为业务方取数。简单重复的取数工作,一方面很难让大家在技能上有提高,另一方面也慢慢的消磨了大家的积极性和意志,也让大家极没有存在感。

2023-02-27 16:44:33 146

原创 关于【你们数据仓库是怎么设计的】如何回答?

你们数据仓库都是怎么设计的,数据怎么抽象?关于这个问题,我说一说我的想法,不一定是正确的,但希望能给你提供一些思路

2023-02-27 16:33:25 607

原创 数仓字段血缘解析实现—hive版

字段血缘关系的一种实现方式

2023-02-27 10:11:50 1400

原创 有关用户留存模型的一种设计方法

有关用户留存模型的一种设计方法

2023-02-26 16:43:28 244

原创 从一个sql引发的hive谓词下推的全面复盘及源码分析(下)

网上有太多写hive谓词下推的文章,但因为版本问题,不够全面,也不够准确了。影响谓词下推的不仅仅有PPD优化器,还有CBO。该文章【上篇】主要介绍谓词下推的规则及结论,【下篇】从源码层面跟踪hive是怎么做的优化

2023-02-26 12:16:52 324

原创 从一个sql引发的hive谓词下推的全面复盘及源码分析(上)

网上有太多写hive谓词下推的文章,但因为版本问题,不够全面,也不够准确了。影响谓词下推的不仅仅有PPD优化器,还有CBO。该文章【上篇】主要介绍谓词下推的规则及结论,【下篇】从源码层面跟踪hive是怎么做的优化

2023-02-26 11:03:40 257

原创 Hive源码系列(十)编译模块之语义解析 数据准备

先准备数据以及确定sql,熟悉该sql对应的ASTTree。

2023-02-25 18:56:37 119

原创 Hive源码系列(九)编译模块之语义解析 整体分析

要坚持不懈的撸源码,让撸源码成为一种习惯,即使撸源码的计划被打乱,然后我们依旧饱含热情的去制定新的撸源码计划 ...

2023-02-25 16:42:20 274

原创 Hive源码系列(八)编译模块之词法、语法解析 (下)

这篇主要介绍hive词法、语法解析的源码 以及hive AstTree

2023-02-25 09:32:54 149

原创 Hive源码系列(七)编译模块之词法、语法解析 (中)

这篇主要举实际案例说明怎么使用antlr工具、利用antlr生成的Lexer、Parser、TreeParser代码,获取asttree。这些都是hive获取asttree的过程,理解了这些,再理解hive的asttree就很容易了

2023-02-24 17:55:58 156

原创 Hive源码系列(六)编译模块之词法、语法解析 (上)

词法语法解析模块会先介绍一下antlr环境(上)。然后举案例说明怎么利用antlr生成的Lexer、Parser、TreeParser代码获取asttree(中)。 最后详细介绍hive词法语法解析源码、玩转hive asttree(下)

2023-02-24 17:34:53 103

原创 Hive源码系列(五)编译模块之整体介绍

这次主要对Hive编译模块做整体介绍,后面会针对流程中的每一步做详细分析

2023-02-24 16:43:10 196

原创 Hive源码系列(四)hive2.1.1源码包介绍及调试

这次主要对hive源码包及hive的两种调试方式做了介绍,这篇结束后,整个源码调试环境的搭建已经完成。

2023-02-24 15:19:34 254

原创 Hive源码系列(三)hive2.1.1源码导入eclipse并做初步运行

这一篇主要写将hive源码导入eclipse以及运行入口类CliDriver.java。在导入及运行的过程会遇到各种各样的问题,本文写了自己遇到的问题及解决方案。把项目跑起来非常重要,这些都是我们后面分析调试hive编译模块源码的基础。

2023-02-23 15:43:07 177

原创 Hive源码系列(二)hive2.1.1源码编译并编译成eclipse项目

我在调试hive源码时,主要使用eclipse,所以最终要把hive源码编译成eclipse项目,方便导入eclipse进行调试。后面会考虑录hive源码系列的同步视频,喜欢的同学多多关注

2023-02-23 15:24:54 181

原创 spark sql多维分析优化——提高读取文件的并行度

知识技术不能留盲点,尤其是正在用的关键技术。盲点、死穴,不花时间去研究,总会绊你一脚。主动学习,保持激情,不断提高~

2023-02-23 14:12:43 1104

原创 spark sql多维分析优化——细节是魔鬼

分享一个工作中遇到的多维分析优化的案例

2023-02-22 16:06:48 1390

原创 记录一次spark sql的优化过程

记录一次spark sql优化的过程

2023-02-22 15:45:29 282

原创 SparkSql数组操作的N种骚气用法

总结一下sparksql(基于branch3.3) 中 array操作相关的骚气用法,这恐怕是总结的最全的一篇了,哈哈~~

2023-02-22 14:28:17 3065

原创 Hive源码系列(一)hive2.1.1+hadoop2.7.3环境搭建

这是一篇工具类的文章,要分析调试hive源码,必须搭建一套hive的运行环境。还记得第一次搭建hive源码调试环境,用了一个月的时间,才完全跑通整个调试过程。中间遇到各种各样莫名奇妙的问题,也有好多次想放弃,幸好坚持了下来。

2023-02-21 15:49:54 575

原创 SparkSql不同写法的一些坑(性能优化)

sparksql不同写法的避坑指南

2023-02-21 15:30:52 207

原创 sparksql优化的奇技淫巧(一次惊掉下巴的优化)

一次惊掉下巴sparksql的优化

2023-02-21 14:23:00 391

原创 面试 | 你真的了解count(*)和count(1)嘛?

虽然是我在给大家出作业题,这篇也算是我自己给自己交的一个作业吧

2023-02-21 10:36:59 169

原创 Hive Bug系列之关联结果不正确详解

Hive是互联数据仓库中使用最频繁的工具,做为仓库的技术人员,有很大必要去深入了解它,并以认真的态度去对待工作中遇到的每个问题,每个知识点,由点及面,让我们的技术更扎实,也让我们更有底气!

2023-02-20 21:47:45 871 1

原创 Spark DataSource API v2 版本对比 v1有哪些改进?

Spark DataSource API v2 版本对比 v1有哪些改进?整理记录一下,下周分享ResolveRelations规则中会用到,需要理解

2023-02-20 20:30:30 108

原创 sparksql源码系列 | 生成resolved logical plan的解析规则整理

Analyzer定义了从【未解析的逻辑执行计划】生成【解析后的逻辑执行计划】的一系列规则

2023-02-20 15:50:55 161

原创 sparksql源码系列 | ResolveReferences规则count(*)详解

大家想要《sparksql内核心剖析》电子书的话,一定记得后台发 :sparksql源码 这几个字,不要有空格、不要加-​ ,因为我设置的是精准匹配,看到有好多小伙伴发错了

2023-02-20 14:25:53 161

原创 sparksql源码系列 | 最全的logical plan优化规则整理(spark2.3)

最全的logical plan优化规则整理(spark2.3),有需要的点赞收藏~~

2023-02-20 10:13:18 181

原创 Sparksql源码系列 | 读源码必须掌握的scala基础语法

这篇文章总结一下我在学习spark sql源码时,曾经纠结过的一些scala语法~

2023-02-18 11:43:36 264 1

Spark的checkpoint源码讲解

Spark的checkpoint源码讲解

2023-04-09

spark-广播变量基础及源码解析

spark-广播变量基础及源码解析

2023-04-08

spark-BlockManager向BlockManagerMaster注册

spark-BlockManager向BlockManagerMaster注册

2023-04-08

spark-blockmanager基础及源码彻底解析

spark-blockmanager基础及源码彻底解析

2023-04-08

数仓-词根表-简版V4.0

数仓-词根表-简版V4.0

2023-04-08

睿治数据治理平台技术白皮书

睿治数据治理平台技术白皮书

2023-04-08

大数据学习进阶路线高清图

大数据学习进阶路线高清图

2023-04-08

大数据湖体系规划与建设方案

大数据湖体系规划与建设方案

2023-04-08

大数据技术之Spark优化

大数据技术之Spark优化

2023-04-08

大数据技术之Spark源码

大数据技术之Spark源码

2023-04-08

spark-JDBCRDD源码及自定义JDBCRDD的分区策略

spark-JDBCRDD源码及自定义JDBCRDD的分区策略

2023-04-08

spark-textFile构建RDD的分区及compute计算策略

spark-textFile构建RDD的分区及compute计算策略

2023-04-08

spark-SequenceFile及MapFile讲解

spark-SequenceFile及MapFile讲解

2023-04-08

Spark读取HbaseRDD的过程及源码解析

Spark读取HbaseRDD的过程及源码解析

2023-04-07

spark-RDD的特性介绍及源码阅读必备基础

spark-RDD的特性介绍及源码阅读必备基础

2023-04-07

spark-ExternalShuffleService配置使用及性能提升

spark-ExternalShuffleService配置使用及性能提升

2023-04-07

Java面试核心知识点精讲-原理篇

Java面试核心知识点精讲

2023-04-07

spark-shuffle重要类和方法介绍

spark-shuffle重要类和方法介绍

2023-04-07

Informatica的《全局数据治理》白皮书

在全球数字化转型的大背景下,数据治理——无疑是当今时代一个热点话题。关于数据治理你或许看过DAMA的《数据管理知识体系指南(DMBOK)》,或许也看过笔者的《一本书讲透数据治理:战略、方法、工具与实践》。而今天要分享的内容主要摘自Informatica的《全局数据治理》白皮书,一定会给你带来进一步的收获。

2023-04-07

新手指导hadoop、hbase、hive版本对应关系查找表

很多刚入门的同学找不到版本对应关系,这里从官网整理下来,供大家参考 hadoop、hbase、hive版本对应关系.新手指导hadoop、hbase、hive版本对应关系查找表

2015-02-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除