大数据4、Apache Hive基础实战

本系列为大数据学习个人笔记,如有错误,欢迎指正,也欢迎各路朋友交流讨论。

数据仓库

  • 数据仓库是一个面向主题的,集成的,非易失的,时变的数据集合,用于支持管理决策。

数据仓库解决的问题

  • 为业务部门提供精准及时的报表
  • 为管理人员提供更强的分析能力
  • 为数据挖掘和知识发现奠定基础

What is Hive ?

  • 数据仓库解决方案构建于Hadoop之上
  • 提供类似SQL的查询语言Hive Query Language - HQL,它具有最小的学习曲线
  • 早期的Hive开发工作始于2007年的 Facebook
  • Hive让更多人前来使用Hadoop
  • 今天,Hive是Hadoop下的顶级Apache项目

Hive 的优势和特点

  • 提供简单和优化的模型,编码少于MR
    • 只需要写SQL,底层会自动转化为mapreduce
  • HQL和SQL具有类似的语法和高生产率
    • 都是基于SQL92标准
  • Hive支持在不同的计算框架上运行
    • mapreduce
    • Tez(比mapreduce的性能快了50倍)
  • Hive支持在HDFS和HBase上进行临时查询数据
  • Hive支持用户定义的函数,脚本和自定义格式
  • 用于ETL和BI工具的成熟JDBC和ODBC驱动程序
  • 适合做数据的批处理,就是离线处理
  • Hive有一个庞大而活跃的社区

Hive Database

  • 数据库是用于类似目的或属于同一组的表的集合
  • 如果未指定数据库(使用database_name),则默认使用默认数据库default
  • Hive creates a directory for each database at /user/hive/warehouse, which can be defined through hive.metastore.warehouse.dir property except default database (默认数据库表直接建立在该目录下)

Hive Tables

  • External Tables
    • 数据保存在LOCATION关键字指定的HDFS路径中。 由于DROP表(元数据)不会删除数据,因此Hive不会完全管理数据
  • Internal Tables/Managed Table
    • 数据保存在默认路径中,例如/user/hive/warehouse/employee。 数据完全由Hive管理,因为DROP表(元数据)将删除数据
  • 最大的区别:删除表的时候会不会删除数据。

对Hive表的三联问!!!

  • What is internal and external tables? 90%
  • What is key difference between them? 80%
  • What is best practice to use them? 20% (最佳实践)
    • 用来处理原始数据和客户给出的数据(不能修改数据),使用外部表
    • 需要进行共享数据的时候会使用外部表
    • 对数据清洗和转换的时候会使用内部表
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值