Hadoop及生态圈
文章平均质量分 68
Hadoop及生态圈
对许
这个作者很懒,什么都没留下…
展开
-
Impala:基于内存的MPP查询引擎
Impala是Cloudera公司主导研发的高性能、低延迟的交互式SQL查询引擎,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。Impala主要用于解决Hadoop生态圈无法支持交互式查询数据的痛点,Impala是CDH平台首选的PB级大数据实时交互式查询分析引擎2015年11月,Cloudera将Impala捐赠给了Apache基金会,2017年11月,Impala从Apache孵化器毕业。原创 2024-01-20 17:41:31 · 962 阅读 · 0 评论 -
如何截取Hive数组中的前N个元素?
现在,我们要截取上述数组中的前三个元素,那么应该怎么操作呢?需求:截取任意给定数组中的前N个元素,返回截取后的子数组。方式3:先转换为字符串,再截取特定长度后转换为数组。方式1:使用索引逐个取值,再收集到新的数组。可以尝试以下几种方案。原创 2023-12-11 15:57:09 · 1041 阅读 · 0 评论 -
Hive谓词下推之FULL JOIN
本案例将使用full join连接类型进行演示,并透过full join来反映其它Hive谓词下推通用使用场景,得出普遍结论。b表先执行where过滤,过滤后再与a表进行full join,因此,a、b两表中rank=2的数据丢失,结果不符合要求。a表与b表互相没有匹配到的数据显示为NULL,数据不会丢失,但结果不符合要求。a表与b表互相没有匹配到的数据显示为NULL,数据不会丢失,但结果符合要求。原创 2023-11-06 22:14:03 · 426 阅读 · 1 评论 -
Hive谓词下推
谓词下推(Predicate Pushdown,PPD)是指将过滤表达式尽可能移动至靠近数据源的位置,以使真正执行时能直接跳过无关的数据。简而言之,就是在合适的场景下,优先执行过滤条件。原创 2023-11-06 22:07:44 · 684 阅读 · 0 评论 -
Hive内置表生成函数
在Hive中,所有的运算符和用户定义函数,包括用户定义的和内置的,统称为UDF(User-Defined Functions)。如下图所示:其中,用户自定义聚合函数和内置聚合函数统称为UDAF(User-Defined Aggregate Functions),用户自定义表生成函数和内置表生成函数统称为UDTF(User-Defined Table-Generating Functions)本文将主要通过具体案例详细介绍Hive的内置表生成函数(UDTF)原创 2023-11-24 16:37:17 · 1421 阅读 · 0 评论 -
Hive默认分割符、存储格式与数据压缩
Hive支持的存储数据的格式主要有:TEXTFILE(行式存储) 、SEQUENCEFILE(行式存储)、ORC(列式存储)、PARQUET(列式存储)。企业中使用ORC较多。SNAPPY压缩在企业中使用较多。Hive的数据压缩格式通过。原创 2023-11-19 17:30:11 · 648 阅读 · 0 评论 -
Hive客户端hive与beeline的区别
Hive-cli(hive)是Hive连接hiveserver2的命令行工具,从Hive出生就一直存在,但随着Hive功能的增强、BUG的修复及版本升级,Hive-cli结构的局限性已经跟不上Hive的发展,如果强行更改又不能满足向下兼容,于是就出现了全新的beeline命令行结构原创 2023-11-18 17:45:50 · 982 阅读 · 0 评论 -
Hive插入数据警告:Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions
启动Hive的JDBC服务并使用IDE连接到HIve,创建表成功,但是INSERT插入数据时经过长时间加载后无法得到预期结果,插入不成功。然而,很多小伙伴都是本地测试时使用的INSERT,更换Spark、Tez可不是那么容易;实际工作中根据生产环境需要可直接进行引擎修改,甚至都不用你修改,底层自动优化自动选择执行引擎。Hive-on-MR在Hive 2中已弃用,并且在未来版本中可能不可用。考虑使用不同的执行引擎(例如Spark、Tez)或使用Hive 1.X版本。我们发现,这就很明显了,说明Hive在。原创 2023-11-12 15:11:42 · 2942 阅读 · 3 评论 -
HQL解析Json对象列表字符串常见问题与解决
LATERAL VIEW子句与生成器函数(如explode)结合使用,将生成包含一个或多个行的虚拟表。使用LATERAL VIEW OUTER,结果数据不会丢失,explode()结果显示为NULL。explode()转换的Array中若包含NULL,则结果中不会有该行记录,最终导致。,结果数据不会丢失,explode()结果显示为。1、Json对象列表字符串解析为数组。1、Json对象列表字符串解析为数组。只能解析json字符串中都是使用。可以解析json字符串中都是使用。3、解析json字符串。原创 2023-09-09 16:00:18 · 405 阅读 · 0 评论 -
IDEA查询Hive表中文显示??问题解决
使用hiveserver2重启Hive的客户端服务。修改hive中hive-site.xml配置文件。IDEA连接Hive查询表结果中文显示`?在Linux-MySQL中执行如下语句。原创 2023-09-11 22:40:42 · 103 阅读 · 0 评论