Hive优化方法大全

原创

已于 2024-02-05 13:57:55 修改 · 998 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#hive #hadoop #数据仓库 #大数据 #数据库管理员

于 2023-11-24 16:48:11 首次发布

本文详述了Hive的优化方法，包括union all优化、使用distinct而非子查询、数据格式选择如ORC和Parquet提升性能、小文件过多的解决、并行执行开启、数据倾斜处理以及JOIN和Limit优化。通过实例展示了如何通过SQL语句和配置参数改善Hive查询效率。

1. union all

insert into table stu partition(tp)

select s_age,max(s_birth) stat,'max' tp

from stu_ori

group by s_age

union all

insert into table stu partition(tp)

select s_age,min(s_birth) stat,'min' tp

from stu_ori

group by s_age;

我们简单分析上面的SQl语句，就是将每个年龄的最大和最小的生日获取出来放到同一张表中，union all 前后的两个语句都是对同一张表按照

s_age进行分组，然后分别取最大值和最小值。对同一张表相同的字段进行两次分组，这造成了极大浪费，我们能不能改造下呢，当然是可以的，为

大家介绍一个语法：from ... insert into ... ，这个语法将from前置，作用就是使用一张表，可以进行多次插入操作：

set hive.exec.dynamic.partition=true;

set hive.exec.dynamic.partition.mode=nonstrict;

from stu_ori

insert into table stu partition(tp)

select s_age,max(s_birth) stat,'max' tp

group by s_age

insert into table stu partition(tp)

select s_age,min(s_birth) stat,'min' tp

group by s_age;

上面的SQL就可以对stu_ori表的s_age字段分组一次而进行两次不同的插入操作。

这个例子告诉我们一定要多了解SQL语句，如果我们不知道这种语法，一定不会想到这种方式的。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xinxizjz

关注关注

20
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hive union all性能优化

鲸鱼

03-23

1609

目录一、原SQL二、调优参数1.set hive.exec.parallel=true;2.set hive.exec.parallel.thread.number=32;3.性能对比一、原SQL ***** 运行时间58min ******** select `time`,srcroot,srctag,terminal ,tokentype as type,count(1) as cnt from hdp_quc.ucent_login_rec_hive_part where `time`

Hive优化方法汇总

南洲.的博客

09-01

4735

1、Fetch抓取 Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如：SELECT * FROM employees;在这种情况下，Hive 可以简单地读取 employee 对应的存储目录下的文件，然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more，老版本 hive 默认是 minimal，该属性修改为 more 以后，在全局查找、字段查找、limi

1 条评论您还未登录，请先登录后发表或查看评论

Hive优化总结（转）

weixin_34260991的博客

01-15

773

Hive优化总结 ---by 食人花优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征: 1.不怕数据多，就怕数据倾斜。 2．对jobs数比较多的作业运行效率相对比较低，比如即...

Hive性能优化

weixin_33981932的博客

03-22

695

1.概述　　继续《那些年使用Hive踩过的坑》一文中的剩余部分，本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍　　首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总...

Hive优化

Java&&大数据专栏

09-07

849

Hive 针对不同的查询进行了优化，优化可以通过配置进行控制，本文将介绍部分优化的策略以及优化控制选项。列裁剪（Column Pruning）在读数据的时候，只读取查询中需要用到的列，而忽略其他列。例如，对于查询： SELECT a,b FROM T WHERE e 其中，T 包含 5 个列 (a,b,c,d,e)，列 c，d 将会被忽略，只会读取a, b, e 列

hive sql union all的性能优化

weixin_39150719的博客

08-13

6465

union的巧妙用法，使用union也可以横向合并sql查询结果我们都知道union是纵向连接查询结果，join是横向，但是用union all连接大家试过吗？恢复菜鸟代码如下： select ep.productid,productname,count(st.tduserid),count(distinct sl.tduserid),count(distinct sn.tduserid),a...

大数据开发+hive优化方法大全+hql优化

11-24

【大数据开发+hive优化方法大全+hql优化】在大数据处理领域，Hive 是一个非常重要的工具，它提供了基于 SQL 的查询语言（HQL）来处理大规模数据集。针对Hive的性能优化，可以从多个方面进行，包括SQL语句优化、...

hive常用优化方法大全共2页.pdf.zip

10-28

这份名为“hive常用优化方法大全共2页.pdf”的文档，虽然名称提及只有两页，但内容却涵盖了许多关键的Hive优化策略。以下是对这些优化方法的详尽解析： 1. **元数据优化**：Hive通过Hive Metastore服务管理元数据，...

精选资源

Hive优化（提高hive运行速度）

01-20

然而，Hive 的性能通常不如传统的数据库系统，因此对其进行优化是提高数据分析效率的关键。本文将主要讨论如何通过启用 Hive 的本地模式来提高其运行速度。一、Hive 使用本地模式执行操作在默认情况下，当 Hive ...

巧用union all 优化HiveSql

weixin_42474635的博客

04-11

2005

union的巧妙用法，使用union也可以横向合并sql查询结果

工作总结hive优化

07-11

hive优化.pdf

hive union （all）

godspeedlaile9的专栏

11-29

2715

多表合并，字段名必须匹配 union all 需放于子查询中，合并后的表要有别名 union 去掉重复的 union all 不去重 eg： select * from (select age, name from test1 union all select age, name from test) a; 特殊用处： person_name 表 (id ,

Hive 优化之 union all 与 multi insert

LouisLee 的博客

09-05

3600

对同一张表的union all 要比多重insert快的多，原因是hive本身对这种union all做过优化，即只扫描一次源表；而多重insert也只扫描一次，但应为要insert到多个分区，所以做了很多其他的事情，导致消耗的时间非常长；希望大家在开发的时候多测，多试！ lxw_test3 12亿左右记录数 Union all : 耗时7分钟左右 USE dm...

hive同一张表union all的优化

fuyun6363的博客

03-29

3026

insert overwrite table dwd.dwd_user_play_event_1d_delta_daily partitions (dt = '${DT}') select * from ods.user_event_log_ex where dt = '${DT}' and event_name = 'play_start' union all select * ...

Hive SQL调优，distict去重效率竟然比group by高？union该如何优化？

后来X大数据

09-18

2212

关于Hive SQL优化这几天因为做数仓，写完SQL后总觉得自己写的SQL又臭又长，是不是应该好好优化下，于是还专门为此重新2本书学会了2点 1、SQL优化？到底在优化什么？关于Hive SQL优化，大部分来说都是为了性能更优 1、先整理需求难道group by就一定比distinct高效么？几乎所有的文档都这么写，尽量避开distinct去重，但事实真如此吗？让我们开看看 2、如何看懂SQL执行计划 count() 我们都知道，如果直接select * from a; 这个时候并不会走MR，那

Hive insert into小文件问题优化解决

qq_43688472的博客

10-28

1366

Hive insert into小文件问题优化解决 insert into table hhl values ('1','11'); insert into table hhl values ('1','12'); 这样插入数据的时候，会发现每次插入一次数据，就会产生一个小文件解决的问题: 一:sql 优化 insert into table hhl values (‘1’,‘11’), (‘1’,‘12’); 每次这样执行一次就会产生一个文件但是你要不同的时期，分段执行插入数据时使用下面的方

hive 优化

qq_43192537的博客

10-05

2934

hive 优化

Hive性能调优

Binder~的博客

11-15

646

1.JOIN优化执行JOIN语句时，将大表放在右边，如果表小到可以全部加载到内存中，可以考虑执行map端的JOIN 2. Reducer数量可以将Reducer最大值设置为n*0.95，n为TaskTracker数量通过设置hive.exec.reducers.max可以增加Reducer数量，但是这样并不能直接增大Hive中作业的Reducer个数，HIve作业的Reducer个数

Hive的优化方法

蓝星部队的博客

10-31

204

1、join连接时的优化：当超过2个表进行join关联操作时，如果 on 后面 JOIN 的 key 相同，不管有多少个表，都会则会合并为一个 Map-Reduce。 INSERT OVERWRITE TABLE test_users SELECT t.pageid, u.age FROM test_view t JOIN user u ON (t.userid = u...

Hive性能优化：全面指南与实用技巧

首先，该文件名表明它是一个关于Hive优化方法的文档，且文件格式为PDF，并经过压缩处理。Hive是一个建立在Hadoop上的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能。它允许熟悉SQL的...