Hive
文章平均质量分 93
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。
Lansonli
CSDN大数据领域博客专家,InfoQ写作社区2022年度影响力作者、华为云社区2022年度十佳博主、华为云享专家、阿里云专家博主、腾讯云开发者社区2022年度最佳作者、腾云先锋(TDP)核心成员、51CTO专家博主,全网二十万多粉丝,知名互联网公司大数据高级开发工程师
展开
-
大数据面试题(十):Hive的高频面试考点(二)
Hive是基于Hadoop的⼀个数据仓库⼯具,可以将结构化的数据⽂件映射为⼀张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。null在hive底层默认是⽤"\N"来存储的,所以在sqoop到mysql之前需要将为null的数据加工成其他字符,否则sqoop提示错误。对数据的细化,取模分开存储数据,提高查询效率。原创 2024-05-07 07:00:00 · 141 阅读 · 0 评论 -
大数据面试题(九):Hive的高频面试考点(值得收藏)
表。存的是和hdfs的映射关系,hive是逻辑上的数据仓库,实际操作的都是hdfs上的⽂ 件,HQL就是⽤sql语法来写的mr程序。hive是数据仓库,不能和数据库⼀样进⾏实时的CURD操作。是⼀次写⼊多次读取的操作,可以看成是ETL工具。将小表存⼊内存中,将⼩表复制多份,让每个map task内存中保留⼀份(⽐如存放到hash table中),这样只需要扫描⼤表。对于⼤表中的每⼀条记录key/value,在hash table中查找是否有相同的key,如果有,则连接后输出即可。原创 2024-05-05 19:19:27 · 158 阅读 · 2 评论 -
大数据Hive(十二):Hive综合案例
全网最详细的大数据Hive文章系列,强烈建议收藏加关注!新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点。目录系列历史文章前言Hive综合案例一、需求描述二、项目表的字段三、进行数据的清洗工作四、准备工作1、创建 hive 表2、导入ETL后的数据3、向ORC表插入数据五、业务分析1、统计视频观看数 top102、统计视频类别热度Top103、 统计出视频观看数最高的20个视频的所属类别以及...原创 2021-06-21 22:30:05 · 4102 阅读 · 29 评论 -
大数据Hive(十一):Hive调优
大多数的Hadoop Job是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过,有时Hive的输入数据量是非常小的。在这种情况下,为查询触发执行任务时消耗可能会比实际job的执行时间要多的多。对于大多数这种情况,Hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集,执行时间可以明显被缩短。用户可以通过设置hive.exec.mode.local.auto的值为true,来让Hive在适当的时候自动启动这个优化。原创 2021-06-21 00:44:46 · 2098 阅读 · 23 评论 -
大数据Hive(十):Hive的数据存储格式
文章目录Hive的数据存储格式一、列式存储和行式存储二、主流文件存储格式对比实验1、TextFile2、ORC3、Parquet三、存储和压缩结合1、创建一个非压缩的的ORC存储方式2、创建一个SNAPPY压缩的ORC存储方式3、上一节中默认创建的ORC存储方式,导入数据后的大小为4、存储方式和压缩总结:Hive支持的存储数的格式主要有:TEXTFILE(行式存储) 、SEQUENCEFILE(行式存储)、ORC(列式存储)、PARQUET(列式存储)。行存储的特点: 查询满足条件的一整行数据的时候,列存储原创 2021-06-18 00:35:46 · 2027 阅读 · 54 评论 -
大数据Hive(九):Hive的数据压缩
全网最详细的大数据Hive文章系列,强烈建议收藏加关注!新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点。目录系列历史文章前言Hive的数据压缩一、MR支持的压缩编码二、压缩配置参数三、开启Map输出阶段压缩1、开启hive中间传输数据压缩功能2、开启mapreduce中map输出压缩功能3、设置mapreduce中map输出数据的压缩方式4、执行查询语句四、开启Reduce输出阶段压缩1、开启hive最终输出数据压缩功能2、开启..原创 2021-06-17 00:38:57 · 1888 阅读 · 41 评论 -
大数据Hive(八):Hive自定义函数
Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。原创 2021-06-16 08:31:52 · 1769 阅读 · 21 评论 -
大数据Hive(七):Hive的开窗函数
全网最详细的Hive文章系列,强烈建议收藏加关注!后面更新文章都会列出历史文章目录,帮助大家回顾知识重点。目录系列历史文章前言Hive的开窗函数一、窗口函数 ROW_NUMBER,RANK,DENSE_RANK1、数据准备2、ROW_NUMBER3、RANK 和 DENSE_RANK二、Hive分析窗口函数 SUM,AVG,MIN,MAX1、数据准备2、SUM(结果和ORDER BY相关.原创 2021-06-15 21:13:34 · 11495 阅读 · 40 评论 -
大数据Hive(六):Hive的表生成函数
解释:用于和split, explode等UDTF一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。explode(MAP) map中每个key-value对,生成一行,key为一列,value为一列。explode(col):将hive一列中复杂的array或者map结构拆分成多行。reflect函数可以支持在sql中调用java中的自带函数。explode(ARRAY) 数组的每个元素生成一行。原创 2021-06-14 21:28:48 · 23375 阅读 · 74 评论 -
大数据Hive(五):Hive的内置函数
Hive函数Hive的函数分为三类: 聚合函数、内置函数,表生成函数,聚合函数之前已经学习过了,接下来学习内置函数和表生成函数.Hive的内置函数一、数学函数1、 取整函数: round语法:round(double a)返回值: BIGINT说明:返回double类型的整数值部分(遵循四舍五入)举例:hive>select round(3.1415926);32、指定精度取整函数: round语法:round(...原创 2021-06-14 15:31:56 · 2554 阅读 · 5 评论 -
大数据Hive(四):Hive查询语法
全网最详细的Hive文章系列,强烈建议收藏加关注!后面更新文章都会列出历史文章目录,帮助大家回顾知识重点。目录系列历史文章前言hive查询语法一、SELECT语句1、语句结构2、全表查询3、选择特定列查询4、列别名5、常用函数6、LIMIT语句7、WHERE语句二、运算符1、比较运算符2、逻辑运算符三、分组1、GROUP BY语句2、HAVING语句.原创 2021-06-13 00:48:45 · 2987 阅读 · 35 评论 -
大数据Hive(三):Hive数据库和表操作
全网最详细的Hive文章系列,强烈建议收藏加关注!后面更新文章都会列出历史文章目录,帮助大家回顾知识重点。目录系列历史文章前言Hive数据库和表操作一、数据库操作1、创建数据库2、创建数据库并指定hdfs存储位置3、查看数据库详细信息4、删除数据库二、数据库表操作1、创建数据库表语法2、Hive建表时候的字段类型3、内部表操作4、外部表操作5、复杂类型操作6、分区表7、分桶表8、修改表9、hive表中加载数据.原创 2021-06-12 08:15:31 · 4383 阅读 · 61 评论 -
大数据Hive(二):Hive的三种安装模式和MySQL搭配使用
全网最详细的Hive文章系列,强烈建议收藏加关注!后面更新文章都会列出历史文章目录,帮助大家回顾知识重点。目录历史文章前言Hive的三种安装模式和MySQL搭配使用一、Hive的安装方式1、内嵌模式2、本地模式3、远程模式二、Hive的安装1、准备工作2、安装mysql数据库3、安装Hive三、Hive的交互方式第一种交互方式:bin/hive第二种交互方式:使用sql语句或者sql脚本进行交互第三种交互方式:Beeline Clien.原创 2021-06-11 00:44:42 · 5365 阅读 · 77 评论 -
大数据Hive(一):Hive基本概念
全网最详细的Hive文章系列,强烈建议收藏加关注!后面更新文章都会列出历史文章目录,帮助大家回顾知识重点。目录历史文章前言Hive基本概念一、Hive介绍1、什么是Hive2、为什么使用Hive3、Hive的特点二、Hive架构1、架构图2、基本组成3、Hive与传统数据库对比历史文章深夜凌晨女朋友问什么是数据仓库,我的回答让她惊讶,然后发现。。。百度、阿里、腾讯平台架构都熟悉,小米大.原创 2021-06-10 00:29:20 · 6491 阅读 · 57 评论 -
手撕这十道HiveSQL题还不能吊打面试官,却能保你不被吊打
全网最详细的大数据Hive文章系列,强烈建议收藏加关注!新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点。目录系列历史文章前言HiveSQL十题第一题1、需求2、数据准备3、查询SQL4、执行结果第二题1、需求2、数据准备3、查询SQL实现4、执行结果第三题1、需求2、数据准备3、查询SQL4、执行结果第四题1、需求2、数据准备3、查询SQL4、执行结果第五题1、需求2、数据准备...原创 2021-07-08 02:46:50 · 4754 阅读 · 193 评论