Hive基本原理详解

一、Hive概述

(1)什么是Hive?

  • 由Facebook开源用于解决海量结构化日志的数据统计
  • Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能
  • 构建在Hadoop之上的数据仓库:使用HQL作为查询接口,使用HDFS存储,使用MapReduce计算
  • 本质是:将HQL转化为成MapReduce程序
  • 灵活性和扩展性比较好:支持UDF,自定义存储格式等
  • Hive中的表是纯逻辑表,就只是表的定义等,即表的元数据。本质就是Hadoop的目录/文件,达到了元数据与数据存储分离的目的,Hive本身不存储数据,它完全依赖HDFS和MapReduce。
  • Hive的内容是读多写少,不支持对数据的更新
  • Hive中没有定义专门的数据格式,由用户指定,需要指定三个属性:1. 列分隔符 2. 行分隔符 3. 读取文件数据的方法

(2)Hive的优点及应用场景

  • 操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)
  • 避免了去写 MapReduce,减少开发人员的学习成本
  • 统一的元数据管理,可与 impala/ spark等共享元数据
  • 易扩展(HDFS+ MapReduce:可以扩展集群规模;支持自定义函数)
  • 数据的离线处理;比如:日志分析,海量结构化数据离线分析
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

<一蓑烟雨任平生>

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值