druid，impala，presto对比

最新推荐文章于 2024-05-16 15:26:10 发布

xiaomimishiye

最新推荐文章于 2024-05-16 15:26:10 发布

阅读量1.2w

点赞数 4

分类专栏： spark 文章标签： druid impala

本文链接：https://blog.csdn.net/xiaomimishiye/article/details/83344980

版权

2 篇文章 0 订阅

订阅专栏

背景

数据轨迹在湖北落地，面临查询分析时间过长的问题，并且查询时间与大数据能够分配的资源有直接的线性关系。需要考虑如何将数据轨迹查询提速。

与paas的niuxl沟通，建议使用impala或者spark做查询，于是查询对比各种开源的OLAP引擎。

按照查询类型划分，OLAP一般分为即席查询和固化查询，

按照架构实现划分，主流的OLAP引擎主要有下面三点：

MPP架构系统(Presto/Impala/SparkSQL/Drill等)。这种架构主要还是从查询引擎入手，使用分布式查询引擎，而不是使用hive+mapreduce架构，提高查询效率。
搜索引擎架构的系统(es，solr等)，在入库时将数据转换为倒排索引，采用Scatter-Gather计算模型，牺牲了灵活性换取很好的性能，在搜索类查询上能做到亚秒级响应。但是对于扫描聚合为主的查询，随着处理数据量的增加，响应时间也会退化到分钟级。
预计算系统（Druid/Kylin等）则在入库时对数据进行预聚合，进一步牺牲灵活性换取性能，以实现对超大数据集的秒级响应。

数据轨迹现有的实现方式，从业务诉求看为:每账期按照指定的查询列取数据，进行分析未结算原因，偏向固化查询的方式。但现有的实现方式为先按照查询列值查询出主表数据，再根据主表附属表的关联字段，获取查询附属表的sql，sql为动态拼接出来，这种方式更偏向于即席查询的实现。

需要从以下三个方面考虑框架选型：数据存储和构建、安装搭建、开发成本。

impala是Cloudera开发开源的，Impala是Cloudera开发并开源的，能查询存储在HDFS和HBase中的数据。同Hive一样，也是一种SQL on Hadoop解决方案。但Impala抛弃了MapReduce,使用更类似于传统的MPP数据库技术来提高查询速度。

presto是Facebook开源的大数据查询引擎，为了解决hive查询慢产生。使用java编写，数据全部在内存中处理。

druid同kylin一样，是采用预计算的方式。主要解决的是对于大量的基于时序的数据进行聚合查询。数据可以实时摄入，进入到Druid后立即可查，同时数据是几乎是不可变。通常是基于时序的事实事件，事实发生后进入Druid，外部系统就可以对该事实进行查询。

kylin是一种OLAP数据引擎，支持大数据生态圈的数据分析业务，主要是通过预计算的方式将用户设定的多维度数据立方体(cube)缓存起来，达到快速查询的目的。应用场景应该是针对复杂sql join后的数据缓存。
这种OLAP引擎，一般包括以下几部分：

应用思路：将hive中的数据按照查询列构建成cube，存储到hbase中，数据轨迹连接kylin的jdbc接口实现快速查询。

将要分析的数据同步到redis，在redis中快速查询数据。可以在分析前将本月数据同步到redis。

遗留问题：

较多hive操作hbase的方法，没有hbase操作hive数据的。

Apache Kylin在美团点评的应用(https://zhuanlan.zhihu.com/p/27461561)
presto、druid、sparkSQL、kylin的对比分析(https://www.zhihu.com/question/41541395)
盘点SQL on Hadoop中用到的主要技术(http://sunyi514.github.io/2014/11/15/盘点sql-on-hadoop中用到的主要技术/)
Druid（准）实时分析统计数据库——列存储+高效压缩(https://www.cnblogs.com/bonelee/p/6248172.html)

关注