本系列为大数据学习个人笔记,如有错误,欢迎指正,也欢迎各路朋友交流讨论。
数据仓库
- 数据仓库是一个面向主题的,集成的,非易失的,时变的数据集合,用于支持管理决策。
数据仓库解决的问题
- 为业务部门提供精准及时的报表
- 为管理人员提供更强的分析能力
- 为数据挖掘和知识发现奠定基础
What is Hive ?
- 数据仓库解决方案构建于Hadoop之上
- 提供类似SQL的查询语言Hive Query Language - HQL,它具有最小的学习曲线
- 早期的Hive开发工作始于2007年的 Facebook
- Hive让更多人前来使用Hadoop
- 今天,Hive是Hadoop下的顶级Apache项目
Hive 的优势和特点
- 提供简单和优化的模型,编码少于MR
- 只需要写SQL,底层会自动转化为mapreduce
- HQL和SQL具有类似的语法和高生产率
- 都是基于SQL92标准
- Hive支持在不同的计算框架上运行
- mapreduce
- Tez(比mapreduce的性能快了50倍)
- Hive支持在HDFS和HBase上进行临时查询数据
- Hive支持用户定义的函数,脚本和自定义格式
- 用于ETL和BI工具的成熟JDBC和ODBC驱动程序
- 适合做数据的批处理,就是离线处理
- Hive有一个庞大而活跃的社区
Hive Database
- 数据库是用于类似目的或属于同一组的表的集合
- 如果未指定数据库(使用database_name),则默认使用默认数据库default
- Hive creates a directory for each database at /user/hive/warehouse, which can be defined through hive.metastore.warehouse.dir property except default database (默认数据库表直接建立在该目录下)
Hive Tables
- External Tables
- 数据保存在LOCATION关键字指定的HDFS路径中。 由于DROP表(元数据)不会删除数据,因此Hive不会完全管理数据
- Internal Tables/Managed Table
- 数据保存在默认路径中,例如/user/hive/warehouse/employee。 数据完全由Hive管理,因为DROP表(元数据)将删除数据
- 最大的区别:删除表的时候会不会删除数据。
对Hive表的三联问!!!
- What is internal and external tables? 90%
- What is key difference between them? 80%
- What is best practice to use them? 20% (最佳实践)
- 用来处理原始数据和客户给出的数据(不能修改数据),使用外部表
- 需要进行共享数据的时候会使用外部表
- 对数据清洗和转换的时候会使用内部表