hive部分：hive的优化，MapReduce的优化

最新推荐文章于 2025-09-24 13:39:08 发布

原创

最新推荐文章于 2025-09-24 13:39:08 发布 · 2.6k 阅读

4 ·

CC 4.0 BY-SA版权

本文介绍了如何优化Hive SQL查询，包括使用EXPLAIN命令查看执行计划、启用本地模式和并行计算以提高效率。此外，还讲解了严格模式、Hive的排序方式、Join操作优化以及Map-Side聚合等技巧，旨在提升Hive在大数据处理中的性能。

hive 核心思想：

把 Hive SQL 当做 Mapreduce 程序去优化。

以下 SQL 不会转为 Mapreduce 来执行：

select 仅查询本表字段； where 仅对本表字段做条件过滤。

explain 命令可以显示执行计划：

EXPLAIN [EXTENDED] query; EXTENDED 可以看到更详细的信息。

本地模式提高执行效率

本地模式：

mapreduce 任务运行在一台节点上，该节点把需要的资源从其他机器 copy 过来

集群模式：

mapreduce 任务在 hadoop 集群中执行开启本地模式：

set hive.exec.mode.local.auto=true;

注意：

hive.exec.mode.local.auto.inputbytes.max 默认值为 128M，表示加载文件的最大值，若大于该配置仍会以集群方式来运行

查询的数据在数据量不大的表中，这种情况使用本地模式，数据量大时使用集群模式

并行计算

hive 执行 sql 默认是顺序执行，如下 sql 如果使用并行计算会大大提高效率，但是集群压力也增大：

select wc.col1,bk.col2 from
(select count(*) as col1 from wordcount) wc,
(select count(*) as col2 from bucket) bk;

两条子查询可以使用并行计算

通过设置以下参数开启并行模式：

set hive.exec.parallel=true;

注意：

hive.exec.parallel.thread.number

代表一次 SQL 计算中允许并行执行的 job 个数的最大值

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wyqwilliam

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hive MapReduce性能优化

04-07

748

一、Hive任务创建文件数优化 1.1 Map端文件合并减少Map任务数量一般来说，HDFS的默认文件块大小是128M，如果在Hive执行任务时，发现Map端的任务过多，且执行时间多数不超过一分钟，建议通过参数，划分(split)文件的大小，合并小文件。如： set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; set mapreduce.input.fileinputformat.split.mi

参与评论您还未登录，请先登录后发表或查看评论

Hive任务优化--控制hive任务中的map数和reduce数

最新发布

weixin_43346403的博客

09-24

352

【代码】Hive 性能优化。

hadoop中hive与mapreduce小文件合并优化实操（超强详解！！！）

CLKTOY的博客

09-09

1549

目录1-背景1.1-造成大量小文件的原因：1.2-小文件的危害：2-解决方案实操2.1-解决方案12.2-解决方案22.3-解决方案33-总结扩展3.1-总结3.2-扩展（map任务数量的准确控制） 1-背景公司数据治理过程中，发现apache hadoop大数据环境下hdfs中有数量惊人的小文件。如图所示为hdfs的web管理页面：如上图所示可以看到hive中的这个表的20200630这个分区中有551个数据文件。但是我们可以看到hdfs中的默认设置每个块大小为256M，而该表分区存储数据的

Hive on MapReduce调优，通常需要注意哪些？

vjia1994的博客

04-07

283

合理设置 job中reduce的数量和最大数量 set mapred.reduce.tasks set hive.exec.reducers.max 合理设置 job中每个reduce处理文件的大小 set hive.exec.reducers.bytes.per.reducer 合理设置动态分区 set hive.exec.dynamic.partition 合理设置压缩 map/redu...

Hive的MapReduce执行优化：无参数调优的实践

My_wife_QBL的博客

08-01

1094

在Hive中优化MapReduce任务并不仅仅依赖于参数调优，通过合理的数据建模、查询编写、聚合函数选择以及数据倾斜处理等方法，同样可以实现性能的提升。希望本文能够为从事大数据分析的人员提供一些有益的思路和实践指导，使其在实际工作中能够更加高效地使用Hive进行数据处理和分析。通过不断学习和实践，我们可以不断优化数据处理的效率，提升数据分析的价值。

第6章：Hive性能优化及Hive3新特性1

08-08

【Hive性能优化及Hive3新特性】在大数据处理领域，Hive作为一个基于Hadoop的数据仓库工具，常用于大规模数据处理和分析。本章节主要探讨如何优化Hive的性能，以及Hive3引入的新特性。 1. **分区表与分桶表优化** ...

HiveAPI:用Java编写的Hive Rest API

05-11

4. **扩展性**：基于Java的HiveAPI易于扩展和维护，可以根据需求添加新的功能或优化性能。总结来说，HiveAPI是Java开发的一个实用工具，它利用REST API封装了与Apache Hive的交互，使得在大数据环境下的数据操作变...

hive参数设置

stable_zl的博客

07-16

6621

一、内存设置 set mapreduce.map.memory.mb=4096;// 每个Map Task需要的内存量 set mapreduce.map.java.opts=-Xmx3276M; // 每个Map Task 的JVM最大使用内存 set mapreduce.reduce.memory.mb=4096; // 每个Reduce Task需要的内存量 set mapreduce.reduce.java.opts=-Xmx3276M; // 每个Reduce Task 的JVM最大使用内存 se

【hive】hive针对map、reduce端的内存溢出的一些session配置

Mrerlou的博客

08-05

983

主要是针对Mapreduce的，map端和reduce端的内存溢出做的一些参数优化。可能不是最优，仅供参考： map端内存溢出参数配置参考： set mapreduce.job.queuename=tj; set hive.mapjoin.smalltable.filesize = 500; set mapred.map.tasks = 20; set mapred.reduce.tasks = -1; set mapred.max.split.size=32000000; set mapred.min.s

hive企业级调优顶级方案

m0_50323137的博客

04-01

301

代码级别的调优友情提示：小编扛着发烧写完这详细的总结，请一定要给一键三连呀各位大佬 explain 与 explain exented 优化 ```powershell explain select * from text1; explain extended select * from text1; explain extended select d.deptno as deptno, d.dname as dname from dept d union all select d.dname as d

hive调优系列—针对mapreduce进行调优

eli的博客

09-07

1525

本文主要针对mapreduce的配置对hive进行调优。更多配置可查看hive官网。

Hive调优之MapReduce详解

qq_654603797

05-28

4414

MapReduce会经历作业输入（Input）、业务处理接口Map、Map到Reduce之间数据传输的环节Shuffle、业务处理接口Reduce和作业输出（Output）五大环节。这5个环节还可以进一步分解成如下图：在Hive调优的过程中，我们不希望产生太多的Map,而把计算任务的等待时间都耗费在Map的启动上；或者不希望生成太多的Map对某个文件进行操作，以免引起资源的争用。因此需要对Map进行控制（在Hive配置“set mapred.map.tasks=task数量”无法控制Map...

Hive之Map常用方法

weixin_43597208的博客

09-20

1万+

实际工作中，有时会出现map复杂数据类型，字段field1形式如：{‘k0’:‘abc’,‘k1’:‘01,02,03’,‘k2’:‘456’}，如果是string形式，我们可以适用get_json_object 函数，取出对应的value值，具体如：get_json_object（field,‘$.k0’），即可取出值abc,如果是map数据类型，这个值该怎么取呢？可以适用field[‘k0’]这种形式取出abc，顺便把map数据类型的常用方法做个总结；

Hive 调优，先掌握这几种优化模式

Focus on Lakehouse

03-19

306

Hive和MapReduce中拥有较多在特定情况下优化的特性，如何利用好相关特性，是Hive性能调优的关键。本文就介绍那些耳熟但不能详的几种Hive优化...

hive中map相关函数总结

weixin_43597208的博客

12-21

5027

具体来说，str_to_map 函数会将一个由键值对组成的字符串解析成一个 Map 对象，其中键和值之间使用指定的分隔符进行分隔。其中，str 是要转换的字符串，delimiter1 是键值对之间的分隔符，delimiter2 是键和值之间的分隔符。第三种sql,maps字段的类型是map;给出一组学生数据，有名字，课程，等级，分数等字段，现在求每门课的情况，包含平均成绩，及这门课包含哪些学生及学生的等级。问题来了，能否在第二种的基础上，实现第一种和第三种的结果，且字段类型是string;

Hive 复杂数据类型之map

鸭梨的博客

12-27

4726

定义格式如下： create table tableName( ....... colName map<T,T> ...... ) 案例准备：测试数据如下 zhangsan chinese:90,math:87,english:63,nature:76 lisi chinese:60,math:30,english:78,nature:0 wangwu chinese:89,math:25 create table if not exists map1( name string,

Hive SQL性能优化：MapReduce阶段策略

内容涵盖了Hive 0.9版本及其对应的Hadoop 1.x版本环境下的MapReduce作业优化，包括对Map阶段、Reduce阶段以及整体查询的优化方法。" 在Hive数据仓库中，SQL查询的性能优化至关重要，因为一个复杂的Hive查询可能会...