Hive:基本概念

1.声明

当前内容主要用于本人学习和复习,当前内容主要为Hive的基本概念和它是什么东西

2.官方介绍(1)

来源于官方描述:Apache Hive

The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive.

Apache Hive数据仓库软件,提供使用SQL方式读、写和管理驻留在在分布式的大数据集。结构能被映射到已存在的数据存储上面。Hive提供了命令行工具和JDBC驱动让用户连接

3.官方介绍(2)

来源cwiki.:cwiki
Built on top of Apache Hadoop™, Hive provides the following features:

  1. Tools to enable easy access to data via SQL, thus enabling data warehousing tasks such as extract/transform/load (ETL), reporting, and data analysis.

  2. A mechanism to impose structure on a variety of data formats

  3. Access to files stored either directly in Apache HDFS™ or in other data storage systems such as Apache HBase™

  4. Query execution via Apache Tez™, Apache Spark™, or MapReduce

  5. Procedural language with HPL-SQL

  6. Sub-second query retrieval via Hive LLAP, Apache YARN and Apache Slider.

构建在Apache Hadoop以上的,Hive提供下面功能

  1. 提供很容易访问数据的SQL工具,从而实现数据仓库任务,例如提取/转换/加载(ETL),报告和数据分析。
  2. 一种将数据结构加于各种数据的机制
  3. 访问在Apache HDFS上面的存储文件或者Apache HBase数据存储系统
  4. 通过 Apache Tez™, Apache Spark™, 或者 MapReduce执行查询
  5. HPL-SQL的过程语言
  6. 通过Hive LLAP, Apache YARN 和 Apache Slider实现的亚秒级查询

Hive provides standard SQL functionality, including many of the later SQL:2003, SQL:2011, and SQL:2016 features for analytics.

Hive提供了标准的SQL功能,包括许多更高版本的SQL:2003, SQL:2011和 SQL:2016的分析功能

Hive’s SQL can also be extended with user code via user defined functions (UDFs), user defined aggregates (UDAFs), and user defined table functions (UDTFs).

Hive的SQL能够被用户定义函数(UDFs),用户定义集合(UDAFs),和用户定义表函数所扩展为用户代码

Hive is not designed for online transaction processing (OLTP) workloads. It is best used for traditional data warehousing tasks.

Hive不能运用在联机事务处理任务。它最好使用在传统的数据仓库任务上面

Hive is designed to maximize scalability (scale out with more machines added dynamically to the Hadoop cluster), performance, extensibility, fault-tolerance, and loose-coupling with its input formats.

Hive被设置为最大程度的扩展(通过在Hadoop集群中添加机器来实现横向扩展),性能,可扩展性,容错性以及与输入格式的松散耦合。

4.总结

1.当前的Hive就是一个通用的管理数据集的管理工具

2.Hive提供了通用的SQL来屏蔽各种不同的数据集的区别(但是从分析来看只能管理一种数据集,Hadoop中数据集中只有数据块的概念,0000等,并且需要初始化数据类型才能使用SQL)

3.Hive本身可以管理Hadoop中的数据库和HBase中的数据块,所以他本身访问和操作没有数据库管理工具快

4.Hive只能用在传统的数据仓库任务,不能使用联机事务处理(不支持分布式事务吗?)

5.Hive主要提供的是提取/转换/加载(ETL),报告和数据分析

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值