自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 数仓架构明细

干了几年数仓了,随便写写。

2023-10-12 15:55:57 80

原创 orc文件

参考文档首先,纯行式或纯列式存储都不是很好,所以提出了先水平划分,再垂直划分的理念名词ORC文件:保存在文件系统上的普通二进制文件,一个ORC文件中可以包含多个stripe,每一个stripe包含多条记录,这些记录按照列进行独立存储,对应到Parquet中的row group的概念。文件级元数据:包括文件的描述信息PostScript、文件meta信息(包括整个文件的统计信息)、所有stripe的信息和文件schema信息。

2023-10-12 15:49:32 66

原创 sql技巧

如果这个时候b的关联很少,会导致b.id有非常多的null,他们都会打到同一分区,造成数据倾斜,这种计算时产生的null要注意;我们来看看它们的效果。从毕业就写sql了,目前sql也是数据计算引擎的统一语言了,虽然每个引擎的sql语法有一些细微差别,但是基本功能都是通用的;干了好几年,什么奇怪需求都碰到过,主要是spark-sql,没有什么是一条sql解决不了的, 如果有,就加个子查询;这个是很重要的问题,它的核心问题是shuffle的时候大量数据打到1个节点,造成1节点有难,全体等待的问题;

2023-10-12 15:48:14 50

原创 学习parquet

学习parquet

2022-01-06 19:42:18 982

原创 我会多少种语言的hello world

pythonprint('hello world')javapublic class HelloWorld { public static void main(String[] args) { System.out.println("hello world"); }}sqlselect 'hello world ' as wordshellecho 'hello world'

2021-04-29 15:01:45 103

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除