Hive：基本概念

最新推荐文章于 2023-04-05 19:03:06 发布

编程写手

最新推荐文章于 2023-04-05 19:03:06 发布

阅读量239

点赞数

分类专栏： Apache Hive

本文链接：https://blog.csdn.net/weixin_45492007/article/details/106870093

版权

Apache Hive 专栏收录该内容

12 篇文章 2 订阅

订阅专栏

1.声明

当前内容主要用于本人学习和复习，当前内容主要为Hive的基本概念和它是什么东西

2.官方介绍(1)

来源于官方描述：Apache Hive

The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive.

Apache Hive数据仓库软件，提供使用SQL方式读、写和管理驻留在在分布式的大数据集。结构能被映射到已存在的数据存储上面。Hive提供了命令行工具和JDBC驱动让用户连接

3.官方介绍(2)

来源cwiki.：cwiki
Built on top of Apache Hadoop™, Hive provides the following features:

Tools to enable easy access to data via SQL, thus enabling data warehousing tasks such as extract/transform/load (ETL), reporting, and data analysis.
A mechanism to impose structure on a variety of data formats
Access to files stored either directly in Apache HDFS™ or in other data storage systems such as Apache HBase™
Query execution via Apache Tez™, Apache Spark™, or MapReduce
Procedural language with HPL-SQL
Sub-second query retrieval via Hive LLAP, Apache YARN and Apache Slider.

构建在Apache Hadoop以上的，Hive提供下面功能

提供很容易访问数据的SQL工具，从而实现数据仓库任务，例如提取/转换/加载（ETL），报告和数据分析。
一种将数据结构加于各种数据的机制
访问在Apache HDFS上面的存储文件或者Apache HBase数据存储系统
通过 Apache Tez™, Apache Spark™, 或者 MapReduce执行查询
HPL-SQL的过程语言
通过Hive LLAP, Apache YARN 和 Apache Slider实现的亚秒级查询

Hive provides standard SQL functionality, including many of the later SQL:2003, SQL:2011, and SQL:2016 features for analytics.

Hive提供了标准的SQL功能，包括许多更高版本的SQL：2003， SQL：2011和 SQL：2016的分析功能

Hive’s SQL can also be extended with user code via user defined functions (UDFs), user defined aggregates (UDAFs), and user defined table functions (UDTFs).

Hive的SQL能够被用户定义函数(UDFs),用户定义集合(UDAFs)，和用户定义表函数所扩展为用户代码

Hive is not designed for online transaction processing (OLTP) workloads. It is best used for traditional data warehousing tasks.

Hive不能运用在联机事务处理任务。它最好使用在传统的数据仓库任务上面

Hive is designed to maximize scalability (scale out with more machines added dynamically to the Hadoop cluster), performance, extensibility, fault-tolerance, and loose-coupling with its input formats.

Hive被设置为最大程度的扩展(通过在Hadoop集群中添加机器来实现横向扩展)，性能，可扩展性，容错性以及与输入格式的松散耦合。

4.总结

1.当前的Hive就是一个通用的管理数据集的管理工具

2.Hive提供了通用的SQL来屏蔽各种不同的数据集的区别(但是从分析来看只能管理一种数据集，Hadoop中数据集中只有数据块的概念，0000等，并且需要初始化数据类型才能使用SQL)

3.Hive本身可以管理Hadoop中的数据库和HBase中的数据块，所以他本身访问和操作没有数据库管理工具快

4.Hive只能用在传统的数据仓库任务，不能使用联机事务处理(不支持分布式事务吗？)

5.Hive主要提供的是提取/转换/加载（ETL），报告和数据分析

编程写手

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive：基本概念

1.声明当前内容主要用于本人学习和复习，当前内容主要为Hive的基本概念和它是什么东西2.官方介绍(1)来源于官方描述：Apache HiveThe Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data a
复制链接

扫一扫

专栏目录