【Hive】
文章平均质量分 89
hive
温欣2030
公众号:数据分析智库。比较少回复。
展开
-
【Hive_02】查询语法
本例中会首先启动一个MapReduce job对表e和表d进行连接操作,然后会再启动一个MapReduce job将第一个MapReduce job的输出和表l进行连接操作。union和union all都是上下拼接sql的结果,这点是和join有区别的,join是左右关联,union和union all是上下拼接。【因为where过滤的是表里面的一行一行的数据,而group by之后返回的是一组一组的数据。注意:按照部门编号分区,不一定就是固定死的数值,可以是20号和30号部门分到一个分区里面去。原创 2023-12-14 15:54:29 · 1115 阅读 · 0 评论 -
【Hive_01】hive关于数据库和表的语法
CREATE DATABASE:表示创建一个数据库的操作。[IF NOT EXISTS]:表示如果数据库不存在则创建,如果数据库已经存在则忽略。database_name:表示要创建的数据库的名称。[COMMENT database_comment]:可选项,表示对数据库的注释或描述。[LOCATION hdfs_path]:可选项,表示数据库在HDFS上的存储路径。原创 2023-12-12 17:11:23 · 1484 阅读 · 0 评论 -
【Hive_03】单行函数、聚合函数、窗口函数、自定义函数、炸裂函数
Hive会将常用的逻辑封装成函数给用户进行使用,类似于Java中的函数。好处:避免用户反复写逻辑,可以直接拿来使用。重点:用户需要知道函数叫什么,能做什么。Hive提供了大量的内置函数,按照其特点可大致分为如下几类:单行函数、聚合函数、炸裂函数、窗口函数。以下命令可用于查询所有内置函数的相关信息。1)查看系统内置函数2)查看内置函数用法--查看upper函数的用法3)查看内置函数详细信息。原创 2023-12-17 11:43:52 · 1580 阅读 · 0 评论 -
【Hive_04】分区分桶表以及文件格式
压缩格式算法文件扩展名是否可切分DEFLATEDEFLATE.deflate否GzipDEFLATE.gz否bzip2bzip2.bz2是LZOLZO.lzo是SnappySnappy.snappy否。原创 2023-12-23 16:50:26 · 1703 阅读 · 0 评论 -
【Hive_05】企业调优1(资源配置、explain、join优化)
Explain呈现的执行计划,由一系列Stage组成,这一系列Stage具有依赖关系,每个Stage对应一个MapReduce Job,或者一个文件系统操作等。stage可以对应mr,也可以对应文件系统操作。因为不是所有的sql语句的底层都是mr。比如说load语句,底层就不是mr而是文件系统操作。有些sql复杂,需要多个mr才能计算,这个时候对应的也就有多个stage,多个stage之间也是有依赖关系的。依赖关系也就表明了哪个mr先执行,哪个后面执行。原创 2023-12-26 17:38:58 · 1569 阅读 · 1 评论 -
【Hive】启动beeline连接hive报错解决
总结就是我将配置文件core-site.xml用户名从wenxin修改成root之后就能正常运行了。在hive-site.xml文件中添加如下配置信息。刚开始一直报错:启动不起来。原创 2023-12-10 13:49:49 · 2073 阅读 · 0 评论