Apache hive
文章平均质量分 94
“深入探索Apache Hive:大数据仓库解决方案,助力高效数据分析与查询处理。“
泛黄的咖啡店
这个作者很懒,什么都没留下…
展开
-
大数据Hive--企业级调优
Explain呈现的执行计划,由一系列Stage组成,这一系列Stage具有依赖关系,每个Stage对应一个MapReduce Job,或者一个文件系统操作等。原创 2024-04-19 19:20:56 · 858 阅读 · 0 评论 -
大数据Hive--文件格式和压缩
压缩格式算法文件扩展名是否可切分DEFLATEDEFLATE.deflate否GzipDEFLATE.gz否bzip2bzip2.bz2是LZOLZO.lzo是SnappySnappy.snappy否为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示:Hadoop查看支持压缩的方式hadoop checknative。Hadoop在driver端设置压缩。压缩格式对应的编码/解码器DEFLATEgzipbzip2LZO。原创 2024-02-28 22:34:17 · 1231 阅读 · 1 评论 -
大数据Hive--分区表和分桶表
再比如,若分区表为外部表,用户执行drop partition命令后,分区元数据会被删除,而HDFS的分区路径不会被删除,同样会导致Hive的元数据和HDFS的分区路径不一致。对于一张表或者分区,Hive 可以进一步组织成桶,也就是更为细粒度的数据范围划分,分区针对的是数据的存储路径,分桶针对的是数据文件。分桶表的基本原理是,首先为每行数据计算一个指定字段的数据的hash值,然后模以一个指定的分桶数,最后将取模运算结果相同的行,写入同一个文件中,这个文件就称为一个分桶(bucket)。原创 2024-02-25 14:16:39 · 1985 阅读 · 1 评论 -
大数据Hive--函数
Hive会将常用的逻辑封装成函数给用户进行使用,类似于Java中的函数。好处:避免用户反复写逻辑,可以直接拿来使用。Hive提供了大量的内置函数,按照其特点可大致分为如下几类:单行函数、聚合函数、炸裂函数、窗口函数。以下命令可用于查询所有内置函数的相关信息:1)查看系统内置函数2)查看内置函数用法3)查看内置函数详细信息1)表结构moviecategory《疑犯追踪》悬疑,动作,科幻,剧情悬疑,警匪,动作,心理,剧情《战狼2》战争,动作,灾难2)建表语句。原创 2024-01-14 16:13:34 · 939 阅读 · 1 评论 -
大数据Hive--查询
本例中会首先启动一个MapReduce job对表e和表d进行连接操作,然后会再启动一个MapReduce job将第一个MapReduce job的输出和表l进行连接操作。union和union all都是上下拼接sql的结果,这点是和join有区别的,join是左右关联,union和union all是上下拼接。在很多情况下,并不需要全局排序,此时可以使用Sort by。对于distribute by进行测试,一定要分配多reduce进行处理,否则无法看到distribute by的效果。原创 2023-12-27 22:02:24 · 1102 阅读 · 1 评论 -
大数据Hive--DDL(数据定义)和DML(数据操作)
文章目录一、DDL1、数据库1.1 创建数据库1.2 查询数据库1.3 修改数据库1.4 删除数据库1.5 切换当前数据库2、表2.1 创建表1)普通建表2)Create Table As Select(CTAS)建表3)Create Table Like语法2.2 案例1)内部表与外部表2)SERDE和复杂数据类型2.3 查看表2.4 修改表2.5 删除表2.6 清空表二、DML1.1 Load1.2 Insert1.2.1 将查询结果插入表中1.2.2 将给定的Values插入表中1.2.3 将查原创 2023-12-13 14:18:05 · 1128 阅读 · 1 评论 -
大数据Hive--安装和配置
有需要Hive-3.1.3.安装包和 MySQL安装包以及MySQL驱动jar包的,请浏览文章末尾。原创 2023-12-08 19:31:32 · 1434 阅读 · 1 评论 -
大数据Hive--入门
Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。那为什么会有Hive呢?它是为了解决什么问题而诞生的呢?(1)在Hadoop中我们用MapReduce程序实现的,当时需要写Mapper、Reducer和Driver三个类,并实现对应逻辑,相对繁琐。test表id列ss ssjiaobanzhangxuehadoop(2) 如果通过Hive SQL实现,一行就搞定了,简单方便,容易理解。原创 2023-12-06 20:29:02 · 347 阅读 · 0 评论