10亿数据量的即席查询 spark 和 kylin的对比

本文对比了Spark SQL和Kylin在处理10亿+数据量的即席查询时的差异和优势。Spark SQL基于MPP,适合内存中的数据,而Kylin利用Cube预处理,适用于大规模数据。尽管Spark SQL有缓存机制,但对SQL支持和大型数据集的处理不如Kylin。Kylin的查询性能优秀,但需要较长的预处理时间和更多磁盘空间。根据应用场景,如数据实时性需求和查询复杂性,可以选择适合的工具。
摘要由CSDN通过智能技术生成

Kylin 与 Spark SQL相比,有哪些差异和优势

SparkSQL本质上是基于DAG模型的MPP。而Kylin核心是Cube(多维立方体)。关于MPP和Cube预处理的差异,重复如下:

>

MPP [1] 

的基本思路是增加机器来并行计算,从而提高查询速度。比如扫描8亿记录一台机器要处理1小时,但如果用100台机器来并行处理,就只要一分钟不到。再配合

列式存储和一些索引,查询可以更快返回。要注意这里在线运算量并没有减小,8亿条记录还是要扫描一次,只是参与的机器多了,所以快了。

>

MOLAP Cube [2][3] 

是一种预计算技术,基本思路是预先对数据作多维索引,查询时只扫描索引而不访问原始数据从而提速。8亿记录的一个3维索引可能只有几万条记录,规模大大缩

小,所以在线计算量大大减小,查询可以很快。索引表也可以采用列存储,并行扫描等MPP常用的技术。但多维索引要对多维度的各种组合作预计算,离线建索引

需要较大计算量和时间,最终索引也会占用较多磁盘空间。

了有无预处理的差异外,SparkSQL与Kylin对数据集大小的偏好也不一样。如果数据可以基本放入内存,Spark的内存缓存会让SparkSQL

有好的表现。但对于超大规模的数据集,Spark也

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值