一、什么是Hive
Hive 是一种底层封装了Hadoop 的数据仓库处理工具,本质是将SQL语句通过解释器转换为MapReduce作业提交到Hadoop集群上进行计算,将结构化的数据映射为一张数据库表,并提供HQL(Hive SQL)查询功能,不用编写具体的MapReduce方法。所有Hive 的数据都存储在Hadoop 兼容的文件系统(如HDFS)中。Hive 在加载数据过程中不会对数据进行任何的修改,只是将数据移动到HDFS中Hive设定的目录下。
Hive不提供实时的查询和基于行级的数据更新操作,不适用于低延迟的应用,例如:联机事物处理(OLTP)。Hive最佳使用场景是大数据的批量处理作业,例如:网络日志分析
二、Hive特点
直接使用hadoop所面临的问题
人员学习成本太高
项目周期要求太短
MapReduce实现复杂查询逻辑开发难度太大
使用Hive后带来的好处
直接使用类SQL语法,提供快速开发的能力。
避免了去写MapReduce,减少开发人员的学习成本。
功能扩展很方便。
Hive特点
可扩展:Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。
延展性:Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
容错:良好的容错性,