- 博客(3)
- 收藏
- 关注
原创 Dremel made simple with Parquet (Parquet 原理分析)
原版地址:https://blog.twitter.com/engineering/en_us/a/2013/dremel-made-simple-with-parquet.html写在前面:本来想翻译一下的,结果发现已经有翻译的版本了,仔细看了一下,有些许地方说的不是很清楚。就同时参考了原文,补了一些个人的理解上去。。Google 对于传说中3秒查询 1 PB 数据的 Dremel,有一篇论文:...
2018-04-26 10:51:40 1230
原创 Hadoop 过滤,映射,谓词下推基本概念
1. Filter(过滤) 和 Project(映射) 在传统的 OLAP 系统中,在进行 Join 的时候使用过滤和映射会极大的提高性能。同样的,在 Hadoop 中使用 Filter 和 Projection 同样可以提高效率,由于减少了一个管道需要处理的数据量。在Hadoop中减少处理的数据量是至关重要的,尤其当需要通过网络和本地磁盘进行处理的时候。我们都知道,MapReduce 的shuf...
2018-04-25 10:35:50 13670
原创 spark 持久化 cache和persist的区别
cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间。cache和persist的区别基于Spark 1.4.1 的源码,可以看到/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */def cache(): this.type = pe...
2018-04-20 17:23:45 4356
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人