Hive 和 Impala的异同
Hive是一个建立在APACHE HADOOP之上的数据仓库软件项目,由Jeff在Facebook的团队开发,目前已经发布了2.3.0的稳定版本。它被用于总结大数据,使查询和分析变得容易。Apache Hive是SQL-in Hadoop的有效标准。Impala是一个运行在Apache Hadoop上的并行处理SQL查询引擎,用于处理存储在HBase (Hadoop数据库)和Hadoop分布式文件系统中的数据。Impala是一个用于并行处理(MPP) SQL查询引擎的开源产品,用于存储在运行于Apache Hadoop上的本地系统集群中的数据。Apache Hive和Impala都是Hadoop系统的关键部分。
让我们来详细研究一下Hive和Impala:
HIVE
- Apache Hive帮助分析存储在Hadoop文件系统(HDFS)和其他兼容文件系统中的庞大数据集。
- 用于查询存储在Hadoop集群中的数据。
- 通过翻译利用Hadoop的可伸缩性。
- Hive不是一个完整的数据库。
- 它不提供记录级别的更新。
- Hadoop是面向批处理的系统。
- 由于MapReduce, Hive查询有很高的延迟。
- Hive不提供它接近OLAP的特性。
- 最适合数据仓库应用。
- 通过MapReduce执行查询。
- 查询语言可以与自定义标量函数(UDF)、聚合(UDAF)和表函数(UDTF)一起使用。
- Hive还提供索引加速,索引类型包括压缩和位图索引0.10,更多的索引类型计划。
- Hive支持的存储类型有RCfile、HBase、ORC和纯文本。
- 类似sql的查询(Hive QL),它被隐式地转换成MapReduce或Tez,或Spark作业。
- 默认情况下,

最低0.47元/天 解锁文章
902

被折叠的 条评论
为什么被折叠?



