===>shark
基于spark、基于内存的列式存储、与hive能够兼容
缺点:hive ql 的解析、逻辑执行计划生成、执行计划优化依赖于hive
仅仅只是把物理执行计划从mr作业替换成spark作业
shark终止以后,产生了2个分支:
1)hive on spark
Hive社区,源码在Hive中
2)Spark SQL
Spark社区,源码在Spark中
支持多种数据源,多种优化技术,扩展性好很多
----------------------------------------------------
Spark SQL架构
SQL on Hadoop
1)Hive
SQL ==> mapreduce
metastore:元数据
SQL:database、table、view
Facebook开源
2)impala
cloudera: cdh(建议大家在生产上使用的hadoop系列版本)、cm(提供一个web界面)
SQL:自己的守护进程执行的,非mr,对内存要求比较高
metastore
3)presto
京东
SQL
4)drill
SQL
访问:HDFS、rdbms、hbase、