马儿四条腿-CSDN博客

原创 LINUX JDK安装

1）卸载现有jdk（1）查询是否安装java软件：rpm -qa|grep java（2）如果安装的版本低于1.7，卸载该jdk：rpm -e 软件包2）用filezilla工具将jdk导入到opt目录下面的software文件夹下面3）在linux系统下的opt目录中查看软件包是否导入成功。[root@hadoop101opt]# cd software/[root@hadoop101software]# lsjdk-7u79-linux-x64.gz hadoop-2.7.2.tar.gz

2022-05-03 15:36:47 415

原创分析表信息 analyze table tablename compute statistics；

分析表信息analyze table dwd.test_123 compute statistics;set hive.compute.query.using.stats=true;查看表信息desc formatted dwd.test_123;查看执行计划explain select count(*) from dwd.test_123;

2022-03-22 16:08:00 2903

原创 does not have enough number of replicas

HIVE sql报错org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.io.IOException: Unable to close file because the last blockB:blk_17 does not have enough number of replicas.问题原因：大量删除文件导致文件写入较慢，进一步造成dn执行nn指令的耗时过长，长时间无法上报IBR请求至nn1．当前规避办法：开启IBR参数，

2022-03-12 14:17:15 3955

原创金融客户标签画像与客群查询使用HIVE+Hbase+Es实践（一）

基于HBASE+ES标签画像

2022-03-08 18:06:24 2409

原创 Caused by: java.io.IOException: Malformed ORC file

Caused by: java.io.IOException: Malformed ORC file问题：hive表文件存储格式不是 orcfile，需修改hive 表数据存储格式为orc格式。

2021-10-18 17:44:21 537

原创 HIVE性能调优之GROUP BY# 数据倾斜

默认情况下，map阶段同一key数据分发给同一reduce，如果单一key过大就很容易造成数据倾斜。（100条数据分组后一组90条，一组10条，这就会数据倾斜）这样的话，我们就可以预先在map端进行一些聚合操作，减轻reduce端的压力。常用参数：–是否在 Map 端进行聚合，默认为 Trueset hive.map.aggr = true–在 Map 端进行聚合操作的条目数目set hive.groupby.mapaggr.checkinterval = 100000–有数据倾斜的时候进行负

2021-09-23 20:27:39 645 1

原创 Hive提供三种可以改变环境变量的方法

Hive提供三种可以改变环境变量的方法，分别是：（1）、修改HIVEHOME/conf/hive−site.xml配置文件；（2）、命令行参数；（3）、在已经进入cli时进行参数声明。下面分别来介绍这几种设定。方法一：　　在Hive中，所有的默认配置都在{HIVE_HOME}/conf/hive-site.xml配置文件；（2）、命令行参数；（3）、在已经进入cli时进行参数声明。下面分别来介绍这几种设定。方法一：　　在Hive中，所有的默认配置都在HIVEHOME/conf/hive−sit

2021-03-18 18:57:19 177

原创 Hadoop 设置任务执行的队列以及优先级和其他配置

作业提交到的队列：mapreduce.job.queuename作业优先级：mapreduce.job.priorityPig版本：SET mapreduce.job.queuename root.etl.distcp;SET mapreduce.job.priority HIGH;Hive版本：SET mapreduce.job.queuename=root.etl.distcp;SET mapreduce.job.priority=HIGH;MapReduce版本：hadoop jar

2021-03-18 18:53:41 389

原创 hive sql 不支持中文别名？当然可以！

select mark as 备注 from table_name；已测试可用

2020-12-29 17:46:31 2383

原创循环 ping -c - localhost 服务器网络是否正常

#!/bin/bashi=“127.0.0.1”while truedoping=ping -c 3 $i > /dev/nullif [ $? -ne 0 ];thenecho “ping $i fail”echo “fail时间：date '+%Y%m%d %T'”elseecho “ping $i ok”echo “ok时间：date '+%Y%m%d %T'”fidone

2020-12-29 10:05:33 129

原创 hive 动态分区插入数据表

hive 动态分区插入数据表set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.max.dynamic.partitions.pernode=2000;set hive.exec.max.dynamic.partitions=2000;set hive.optimize.sort.dynamic.partition=true;set hive.exec.

2020-12-18 16:49:39 263 1

原创 hive 正则表达式验证电话号码

select ‘18901011231’ regexp ‘(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$’

2020-12-04 15:50:54 3406

原创 hive 一个数据源产生多个数据集 from table insert overwrite table

hive 提供了一个独特的算法，对于同一个数据源产生多个数据集可以进行一次遍历数据源：from test_testjq_yinsert overwrite table test_testjq_1 partition (dt)select * where dt=‘20201128’insert overwrite table test_testjq_2 partition (dt)select * where dt=‘20201127’等同于：遍历两次数据源 test_tes

2020-11-25 11:06:40 995

原创浅谈HIVE数据存储格式使用STORED AS ORC 格式

 1.在压缩存储时间上，除Sequencefile外基本都相差无几。 2.数据压缩比例上ORC最优，相比textfile节省了50倍磁盘空间，parquet压缩性能也较好。 3.SQL查询速度而言，ORC与parquet性能较好，远超其余存储格式。 综合上述各种性能指标，建议工作中原始日志写入hive的存储格式都采用ORC或者parquet格式，这和目前主流的做法一致。...

2020-11-23 21:21:09 8372

原创 hive insert into与 insert overwrite区别

hive insert into与 insert overwrite区别1.insert into 与insert overwrite 共同点可以使用查询语句向表中插入数据insert into table employes select * from staged_employes es where es.counry = 'US' and ses.tate = 'OR';insert overwrite table employes select * from stage...

2020-11-23 11:48:05 757

zhuzhen123zhuzhen的博客