Hive
文章平均质量分 79
淡定一生2333
这个作者很懒,什么都没留下…
展开
-
Hive多分区表重命名失败问题分析
项目上有一张Hive分区表,分区数非常多,大约有2000+,然后需要增加一个字段,然后华丽丽的发现,执行了半小时之后,失败了...然后想着那就对表进行重命名吧,使用新表来替换这张旧表,旧表使用别的名字,然后又是漫长半小时等待,又失败了...表重命名操作不就是修改下元数据么,MySQL操作不应该是非常快的么?!为啥还会失败,带着这个问题,来探究下Hive表重命名相关的原理。参考:增加Hive表字段超时_MapReduce服务 MRS_故障排除_使用Hive_华为云...原创 2021-10-13 22:27:18 · 1744 阅读 · 0 评论 -
Hive文件存储格式选择
如果追求的大数据量下的快速写入,选择Text。如果追求的是磁盘空间使用最少,选择ORC。其他情况,无脑Parquet原创 2021-06-20 16:24:38 · 318 阅读 · 0 评论 -
HSQL调优的一些个人见解
1. order by 全局有序,只有一个reduce(不管reduce task的数量设置成多少个,MR框架都会只设置成1个reduce)2. sort by 每个reduce内部排序,对全局来说不是排序。 一般要结合distribute by(分区函数)使用。 数据会按distribute by 写出,写成文件?还是写道不同的分区里面??? 如果指定distribute by,那么MR框架使用字段进行hash分区。3. cluster by...原创 2021-02-28 22:19:49 · 1211 阅读 · 0 评论 -
Hive执行计划初步了解
21原创 2021-02-12 20:48:47 · 1206 阅读 · 0 评论 -
hive 结合执行计划 分析 limit 执行原理
在hive查询中要限制查询输出条数, 可以用limit 关键词指定,如 select columnname1 from table1 limit 10; 这样hive将输出符合查询条件的10个记录,从根本上说, hive是hadoop提交作业的客户端,它使用antlr词法语法分析工具,对SQL进行分析优化后翻译成一系列MapReduce作业,向hadoop提交运行作业以得到结果. 看一条简单的SQL语句:selectdeviceidfromt_aa_pc_logwhere...转载 2021-01-24 22:57:19 · 3926 阅读 · 0 评论 -
Hive解析json字段,虽然json_tuple写法很优雅,但是效率并不一定高哦
在写Hive SQL时,需要从一个json列中解析出多个key的信息,查阅资料了解到有两种写法,一种是get_json_object,另外一种是json_tuple。两种用法的示例如下所示get_json_object示例:selectget_json_object(json_str_column,'$.a1') as a1,get_json_object(json_str_column,'$.a2') as a2,get_json_object(json_str_colum...原创 2021-01-19 23:17:12 · 12223 阅读 · 1 评论