hive知识点

最新推荐文章于 2024-03-21 18:46:32 发布

小羊不想掉头发

最新推荐文章于 2024-03-21 18:46:32 发布

阅读量186

点赞数

文章标签： hive hadoop

本文链接：https://blog.csdn.net/xiaoyangbxdtf/article/details/121888666

版权

本文详细介绍了Hive的相关知识，包括其定义、优缺点、架构，以及与数据库的区别。深入探讨了Hive的元数据、数据类型、表类型、数据插入方式、分区操作和窗口函数。此外，还解析了行转列、列转行的转换方法，以及order by、sort by、Distribute By、Cluster By的用法。最后，提供了Hive的优化思路，如MapJoin、行列过滤和分区技术，以及解决数据倾斜的方法。

摘要由CSDN通过智能技术生成

hive定义

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。
本质是：将HQL转化成MapReduce程序

hive优缺点

优点
1)操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）。
2)避免了去写MapReduce，减少开发人员的学习成本。
3)Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合。
4)Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高。
5)Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。
缺点
Hive的HQL表达能力有限
1)迭代式算法无法表达
2)数据挖掘方面不擅长，由于MapReduce数据处理流程的限制，效率更高的算法却无法实现。
Hive的效率比较低
1)Hive自动生成的MapReduce作业，通常情况下不够智能化
2)Hive调优比较困难，粒度较粗

hive架构

1．用户接口：Client
CLI（command-line interface）、JDBC/ODBC(jdbc访问hive)、WEBUI（浏览器访问hive）
2．元数据：Metastore
元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；
默认存储在自带的derby数据库中，推荐使用MySQL存储Metastore
3．Hadoop
使用HDFS进行存储，使用MapReduce进行计算。
4．驱动器：Driver