![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive SQL 编写
马儿四条腿
没有太晚的开始,不如就从今天行动,总有一天,那个一点一点可见的未来,会在你心里,也在你的脚下慢慢清透,生活,从不亏待每一个努力向上的人
展开
-
分析表信息 analyze table tablename compute statistics;
分析表信息analyze table dwd.test_123 compute statistics;set hive.compute.query.using.stats=true;查看表信息desc formatted dwd.test_123;查看执行计划explain select count(*) from dwd.test_123;原创 2022-03-22 16:08:00 · 2892 阅读 · 0 评论 -
does not have enough number of replicas
HIVE sql报错org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.io.IOException: Unable to close file because the last blockB:blk_17 does not have enough number of replicas.问题原因:大量删除文件导致文件写入较慢,进一步造成dn执行nn指令的耗时过长,长时间无法上报IBR请求至nn1. 当前规避办法: 开启IBR参数,原创 2022-03-12 14:17:15 · 3917 阅读 · 0 评论 -
Caused by: java.io.IOException: Malformed ORC file
Caused by: java.io.IOException: Malformed ORC file问题:hive表文件存储格式不是 orcfile,需修改hive 表数据存储格式为orc格式。原创 2021-10-18 17:44:21 · 529 阅读 · 0 评论 -
HIVE性能调优之GROUP BY# 数据倾斜
默认情况下,map阶段同一key数据分发给同一reduce,如果单一key过大就很容易造成数据倾斜。(100条数据分组后一组90条,一组10条,这就会数据倾斜)这样的话,我们就可以预先在map端进行一些聚合操作,减轻reduce端的压力。常用参数:–是否在 Map 端进行聚合,默认为 Trueset hive.map.aggr = true–在 Map 端进行聚合操作的条目数目set hive.groupby.mapaggr.checkinterval = 100000–有数据倾斜的时候进行负原创 2021-09-23 20:27:39 · 635 阅读 · 1 评论 -
hive sql 不支持中文别名?当然可以!
select mark as 备注 from table_name;已测试可用原创 2020-12-29 17:46:31 · 2364 阅读 · 0 评论 -
hive 动态分区插入数据表
hive 动态分区插入数据表set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.max.dynamic.partitions.pernode=2000;set hive.exec.max.dynamic.partitions=2000;set hive.optimize.sort.dynamic.partition=true;set hive.exec.原创 2020-12-18 16:49:39 · 256 阅读 · 1 评论 -
hive 正则表达式验证电话号码
select ‘18901011231’ regexp ‘(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$’原创 2020-12-04 15:50:54 · 3372 阅读 · 0 评论 -
hive 一个数据源产生多个数据集 from table insert overwrite table
hive 提供了一个独特的算法,对于同一个数据源产生多个数据集可以进行一次遍历数据源:from test_testjq_yinsert overwrite table test_testjq_1 partition (dt)select * where dt=‘20201128’insert overwrite table test_testjq_2 partition (dt)select * where dt=‘20201127’等同于 :遍历两次数据源 test_tes原创 2020-11-25 11:06:40 · 986 阅读 · 0 评论 -
浅谈HIVE数据存储格式使用STORED AS ORC 格式
1.在压缩存储时间上,除Sequencefile外基本都相差无几。 2.数据压缩比例上ORC最优,相比textfile节省了50倍磁盘空间,parquet压缩性能也较好。 3.SQL查询速度而言,ORC与parquet性能较好,远超其余存储格式。 综合上述各种性能指标,建议工作中原始日志写入hive的存储格式都采用ORC或者parquet格式,这和目前主流的做法一致。...原创 2020-11-23 21:21:09 · 8322 阅读 · 0 评论 -
hive insert into与 insert overwrite区别
hive insert into与 insert overwrite区别1.insert into 与insert overwrite 共同点可以使用查询语句向表中插入数据insert into table employes select * from staged_employes es where es.counry = 'US' and ses.tate = 'OR';insert overwrite table employes select * from stage...原创 2020-11-23 11:48:05 · 738 阅读 · 0 评论