自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 LINUX JDK安装

1)卸载现有jdk(1)查询是否安装java软件:rpm -qa|grep java(2)如果安装的版本低于1.7,卸载该jdk:rpm -e 软件包2)用filezilla工具将jdk导入到opt目录下面的software文件夹下面3)在linux系统下的opt目录中查看软件包是否导入成功。[root@hadoop101opt]# cd software/[root@hadoop101software]# lsjdk-7u79-linux-x64.gz hadoop-2.7.2.tar.gz

2022-05-03 15:36:47 406

原创 分析表信息 analyze table tablename compute statistics;

分析表信息analyze table dwd.test_123 compute statistics;set hive.compute.query.using.stats=true;查看表信息desc formatted dwd.test_123;查看执行计划explain select count(*) from dwd.test_123;

2022-03-22 16:08:00 2874

原创 does not have enough number of replicas

HIVE sql报错org.apache.hadoop.yarn.exceptions.YarnRuntimeException: java.io.IOException: Unable to close file because the last blockB:blk_17 does not have enough number of replicas.问题原因:大量删除文件导致文件写入较慢,进一步造成dn执行nn指令的耗时过长,长时间无法上报IBR请求至nn1. 当前规避办法: 开启IBR参数,

2022-03-12 14:17:15 3867

原创 金融客户标签画像与客群查询使用HIVE+Hbase+Es实践(一)

基于HBASE+ES标签画像

2022-03-08 18:06:24 2384

原创 Caused by: java.io.IOException: Malformed ORC file

Caused by: java.io.IOException: Malformed ORC file问题:hive表文件存储格式不是 orcfile,需修改hive 表数据存储格式为orc格式。

2021-10-18 17:44:21 514

原创 HIVE性能调优之GROUP BY# 数据倾斜

默认情况下,map阶段同一key数据分发给同一reduce,如果单一key过大就很容易造成数据倾斜。(100条数据分组后一组90条,一组10条,这就会数据倾斜)这样的话,我们就可以预先在map端进行一些聚合操作,减轻reduce端的压力。常用参数:–是否在 Map 端进行聚合,默认为 Trueset hive.map.aggr = true–在 Map 端进行聚合操作的条目数目set hive.groupby.mapaggr.checkinterval = 100000–有数据倾斜的时候进行负

2021-09-23 20:27:39 626 1

原创 Hive提供三种可以改变环境变量的方法

Hive提供三种可以改变环境变量的方法,分别是:(1)、修改HIVEHOME/conf/hive−site.xml配置文件;(2)、命令行参数;(3)、在已经进入cli时进行参数声明。下面分别来介绍这几种设定。方法一:  在Hive中,所有的默认配置都在{HIVE_HOME}/conf/hive-site.xml配置文件;(2)、命令行参数;(3)、在已经进入cli时进行参数声明。下面分别来介绍这几种设定。方法一:  在Hive中,所有的默认配置都在HIVEH​OME/conf/hive−sit

2021-03-18 18:57:19 156

原创 Hadoop 设置任务执行的队列以及优先级和其他 配置

作业提交到的队列:mapreduce.job.queuename作业优先级:mapreduce.job.priorityPig版本:SET mapreduce.job.queuename root.etl.distcp;SET mapreduce.job.priority HIGH;Hive版本:SET mapreduce.job.queuename=root.etl.distcp;SET mapreduce.job.priority=HIGH;MapReduce版本:hadoop jar

2021-03-18 18:53:41 376

原创 hive sql 不支持中文别名?当然可以!

select mark as 备注 from table_name;已测试可用

2020-12-29 17:46:31 2348

原创 循环 ping -c - localhost 服务器网络是否正常

#!/bin/bashi=“127.0.0.1”while truedoping=ping -c 3 $i > /dev/nullif [ $? -ne 0 ];thenecho “ping $i fail”echo “fail时间:date '+%Y%m%d %T'”elseecho “ping $i ok”echo “ok时间:date '+%Y%m%d %T'”fidone

2020-12-29 10:05:33 118

原创 hive 动态分区插入数据表

hive 动态分区插入数据表set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;set hive.exec.max.dynamic.partitions.pernode=2000;set hive.exec.max.dynamic.partitions=2000;set hive.optimize.sort.dynamic.partition=true;set hive.exec.

2020-12-18 16:49:39 250 1

原创 hive 正则表达式验证电话号码

select ‘18901011231’ regexp ‘(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$’

2020-12-04 15:50:54 3338

原创 hive 一个数据源产生多个数据集 from table insert overwrite table

hive 提供了一个独特的算法,对于同一个数据源产生多个数据集可以进行一次遍历数据源:from test_testjq_yinsert overwrite table test_testjq_1 partition (dt)select * where dt=‘20201128’insert overwrite table test_testjq_2 partition (dt)select * where dt=‘20201127’等同于 :遍历两次数据源 test_tes

2020-11-25 11:06:40 973

原创 浅谈HIVE数据存储格式使用STORED AS ORC 格式

 1.在压缩存储时间上,除Sequencefile外基本都相差无几。 2.数据压缩比例上ORC最优,相比textfile节省了50倍磁盘空间,parquet压缩性能也较好。 3.SQL查询速度而言,ORC与parquet性能较好,远超其余存储格式。 综合上述各种性能指标,建议工作中原始日志写入hive的存储格式都采用ORC或者parquet格式,这和目前主流的做法一致。...

2020-11-23 21:21:09 8276

原创 hive insert into与 insert overwrite区别

hive insert into与 insert overwrite区别1.insert into 与insert overwrite 共同点可以使用查询语句向表中插入数据insert into table employes select * from staged_employes es where es.counry = 'US' and ses.tate = 'OR';insert overwrite table employes select * from stage...

2020-11-23 11:48:05 727

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除