- 博客(15)
- 收藏
- 关注
原创 LINUX JDK安装
1)卸载现有jdk(1)查询是否安装java软件:rpm -qa|grep java(2)如果安装的版本低于1.7,卸载该jdk:rpm -e 软件包2)用filezilla工具将jdk导入到opt目录下面的software文件夹下面3)在linux系统下的opt目录中查看软件包是否导入成功。[root@hadoop101opt]# cd software/[root@hadoop101software]# lsjdk-7u79-linux-x64.gz hadoop-2.7.2.tar.gz
2022-05-03 15:36:47 415
原创 分析表信息 analyze table tablename compute statistics;
分析表信息analyze table dwd.test_123 compute statistics;set hive.compute.query.using.stats=true;查看表信息desc formatted dwd.test_123;查看执行计划explain select count(*) from dwd.test_123;
2022-03-22 16:08:00 2903
原创 does not have enough number of replicas
HIVE sql报错org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.io.IOException: Unable to close file because the last blockB:blk_17 does not have enough number of replicas.问题原因:大量删除文件导致文件写入较慢,进一步造成dn执行nn指令的耗时过长,长时间无法上报IBR请求至nn1. 当前规避办法: 开启IBR参数,
2022-03-12 14:17:15 3955
原创 Caused by: java.io.IOException: Malformed ORC file
Caused by: java.io.IOException: Malformed ORC file问题:hive表文件存储格式不是 orcfile,需修改hive 表数据存储格式为orc格式。
2021-10-18 17:44:21 537
原创 HIVE性能调优之GROUP BY# 数据倾斜
默认情况下,map阶段同一key数据分发给同一reduce,如果单一key过大就很容易造成数据倾斜。(100条数据分组后一组90条,一组10条,这就会数据倾斜)这样的话,我们就可以预先在map端进行一些聚合操作,减轻reduce端的压力。常用参数:–是否在 Map 端进行聚合,默认为 Trueset hive.map.aggr = true–在 Map 端进行聚合操作的条目数目set hive.groupby.mapaggr.checkinterval = 100000–有数据倾斜的时候进行负
2021-09-23 20:27:39 645 1
原创 Hive提供三种可以改变环境变量的方法
Hive提供三种可以改变环境变量的方法,分别是:(1)、修改HIVEHOME/conf/hive−site.xml配置文件;(2)、命令行参数;(3)、在已经进入cli时进行参数声明。下面分别来介绍这几种设定。方法一: 在Hive中,所有的默认配置都在{HIVE_HOME}/conf/hive-site.xml配置文件;(2)、命令行参数;(3)、在已经进入cli时进行参数声明。下面分别来介绍这几种设定。方法一: 在Hive中,所有的默认配置都在HIVEHOME/conf/hive−sit
2021-03-18 18:57:19 177
原创 Hadoop 设置任务执行的队列以及优先级和其他 配置
作业提交到的队列:mapreduce.job.queuename作业优先级:mapreduce.job.priorityPig版本:SET mapreduce.job.queuename root.etl.distcp;SET mapreduce.job.priority HIGH;Hive版本:SET mapreduce.job.queuename=root.etl.distcp;SET mapreduce.job.priority=HIGH;MapReduce版本:hadoop jar
2021-03-18 18:53:41 389
原创 循环 ping -c - localhost 服务器网络是否正常
#!/bin/bashi=“127.0.0.1”while truedoping=ping -c 3 $i > /dev/nullif [ $? -ne 0 ];thenecho “ping $i fail”echo “fail时间:date '+%Y%m%d %T'”elseecho “ping $i ok”echo “ok时间:date '+%Y%m%d %T'”fidone
2020-12-29 10:05:33 129
原创 hive 动态分区插入数据表
hive 动态分区插入数据表set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.max.dynamic.partitions.pernode=2000;set hive.exec.max.dynamic.partitions=2000;set hive.optimize.sort.dynamic.partition=true;set hive.exec.
2020-12-18 16:49:39 263 1
原创 hive 正则表达式验证电话号码
select ‘18901011231’ regexp ‘(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$’
2020-12-04 15:50:54 3406
原创 hive 一个数据源产生多个数据集 from table insert overwrite table
hive 提供了一个独特的算法,对于同一个数据源产生多个数据集可以进行一次遍历数据源:from test_testjq_yinsert overwrite table test_testjq_1 partition (dt)select * where dt=‘20201128’insert overwrite table test_testjq_2 partition (dt)select * where dt=‘20201127’等同于 :遍历两次数据源 test_tes
2020-11-25 11:06:40 995
原创 浅谈HIVE数据存储格式使用STORED AS ORC 格式
1.在压缩存储时间上,除Sequencefile外基本都相差无几。 2.数据压缩比例上ORC最优,相比textfile节省了50倍磁盘空间,parquet压缩性能也较好。 3.SQL查询速度而言,ORC与parquet性能较好,远超其余存储格式。 综合上述各种性能指标,建议工作中原始日志写入hive的存储格式都采用ORC或者parquet格式,这和目前主流的做法一致。...
2020-11-23 21:21:09 8372
原创 hive insert into与 insert overwrite区别
hive insert into与 insert overwrite区别1.insert into 与insert overwrite 共同点可以使用查询语句向表中插入数据insert into table employes select * from staged_employes es where es.counry = 'US' and ses.tate = 'OR';insert overwrite table employes select * from stage...
2020-11-23 11:48:05 757
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人