HiveSQL查询优化

最新推荐文章于 2024-08-16 12:21:18 发布

www_sg_com

最新推荐文章于 2024-08-16 12:21:18 发布

阅读量590

点赞数

文章标签： hive 优化

本文链接：https://blog.csdn.net/www_sg_com/article/details/74910098

版权

在讨论Hive优化之前，我们先介绍两个关键字‘EXPLAIN’和‘EXPLAIN EXTENDED’，在碰到复杂或者执行效率很低的查询时，在查询与居前加上这个关键字，此时这个查询不会执行，而是返回hive是如何去执行这个查询，hive会把查询分解成很多stage。理解这些stage可以帮助我们优化查询。

举个栗子：

EXPLAIN SELECT length(str_tel), str_tel FROM tmp_dataclean.tbl_fin_combine_protest ORDER BY length(str_tel);

1.优化之分区

对数据进行分区，可以将数据以一种符合逻辑的方式进行组织（比如分层存储），同时极大提高查询性能。

在创建表的时候，根据后续查询需求用'PARTITIOED BY( )'对数据进行合理的分区，下面我们根据‘province’和‘city’进行对数据进行分区分区：

CREATE TABLE IF NOT EXISTS tbl_per_info (no INT, name STRING, sex STRING, age INT, salary FLAOT) PARTITIONED BY (province STRING, city STRING);

'province'和'city'已经在文件目录名称中了，不需要再把这些值放在目录下的文件中，浪费空间。当我们需要查询在山东德州的员工个人信息时：

SELECT * FROM tbl_

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

www_sg_com

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

HiveSQL优化

weixin_37944880的博客

01-28

750

HiveSQL优化执行SQL前SQL优化Map长尾Join长尾Reduce长尾 Hadoop应该是当前最流行的大数据处理工具了（没有之一的那种），单独写MapReduce任务的应该不多了，主要还是用的Hive SQL，所以如何让HQL跑的又快又稳是非常重要的。执行SQL前首先，说SQL之前，可以在Hive表上做文章，比如： 1.加分区这个应该是最常用的了，把数据分别存到各个partition...

HiveSQL详细和优化

08-05

HiveSQL详细和优化，以及部分个人点评 This is a brief tutorial that provides an introduction on how to use Apache Hive HiveQL with Hadoop Distributed File System. This tutorial can be your first step towards becoming a successful Hadoop Developer with Hive.

参与评论您还未登录，请先登录后发表或查看评论

hivesql优化

williamjame的博客

06-14

2367

1. 业务处理优化原则 Hive对复杂SQL没有关系形数据库表现好，业务过程可使用临时表使用过程更清晰简单；关联条件尽可能避免使用函数、正则表达式。使用MAPJOIN()会将较小的表加载到内存中，使连结过程在Map阶段完成分区避免数据倾斜问题。 jobs数比较多的作业运行效率相对比较低。可选择tez方式加快小数据量的查询速度。不要求全局有序时使用Distribute By + S...

Hive的优化大全,超过16种优化,详细篇,附带mysql数据库的优化

最新发布

qq_55006020的博客

08-16

1167

hive的十六种优化的原理和代码; mysql的优化方式介绍

hive SQL优化

manweizhizhuxia的博客

05-05

1864

1、多次INSERT单次扫描表使用场景： --当需要多次从一张分区表查出某分区的数据放到一张新表时，下边SQL会多次扫描表。 INSERT INTO temp_table_20201115 SELECT * FROM my_table WHERE dt ='2020-11-15'; INSERT INTO temp_table_20201116 SELECT * FROM my_table WHERE dt ='2020-11-16'; 使用方法： --只用扫描一次表。 FROM my_table IN

Hive SQL性能优化

02-26

### Hive SQL性能优化详解 ...综上所述，通过对Hive SQL执行顺序的理解以及采用合适的优化策略，可以显著提升查询性能。在实际应用中，开发者应当根据具体需求灵活运用这些技巧，以达到最佳效果。

hivesql常用优化技巧

加油小白的博客

02-02

2060

一、列裁剪与分区裁剪 1.列裁剪（只查询需要的字段，千万不要直接写 select * from）列裁剪就是在查询时只读取需要的列。当列很多或者数据量很大时，如果select所有的列或者不指定分区，导致的全列扫描和全表扫描效率都很低。 2.分区裁剪（有分区条件的一定要加上分区条件【如：dt...】）分区裁剪就是在查询时只读需要的分区。二、排序技巧–distribute by 与sort by 配合使用代替 order by order by：将结果按某个字段全局排序，导致所有map端数据都进入一个r

hive SQL优化总结

a80090023的专栏

02-28

1696

1.行过滤尽早尽量过滤数据，减少每个阶段的数据量。例如两个表join，把where筛选条件写到单表子查询里再进行join可减少每个表的读取数据量。 2.列裁剪例如某表有a,b,c,d,e五个字段，但是我们只需要a和b，那么请用select a,b from table 而不是select * from table。 3.分区裁剪在查询的过程中减少不必要的分区，即尽量指定分区，这一块hive分区表严格模式有强制措施。 4.减少job数巧妙的使用 UNION ALL 减少 job 数量

HIVE SQL 代码优化总结(容易踩坑的地方)

lingan_Hong的博客

07-14

1946

hive的出现降低了Hadoop的使用门槛，但是同时由于代码的编写不规范导致出现数据倾斜、高IO、笛卡尔积、运行耗时长等问题，所以要对HQL进行优化。

Hive sql优化

06-13

从数据倾斜，jvm重用，语句编写等方面对hive查询进行优化。

hive sql 优化

zjw11763的专栏

06-01

6781

优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。对分区插入数据(每次都会覆盖掉原来的数据): 长期观察hadoop处理数据的过程，有几个显著的特征: 1.不怕数据多，就怕数据倾斜。 2．对jobs数比较多的作业运行效率相对比较低，比如即使

HIVE大数据平台SQL优化分享

wowulita123的博客

05-11

1007

此文章是大数据平台运维组从多维度参数（CPU，内存，运行时长等）筛选出TOP任务，联合数据开发人员进行优化，最终出具优化方案优化跑批作业的业务逻辑，SQL逻辑等，并跟进方案落地和报告整理。

hive sql优化

weixin_42303014的博客

12-11

131

–一、json优化 –1.使用json_tuple –优化前 select create_time as model_time, to_date(create_time) as model_dt, uid as user_id, is_old_user, app_name, model as model_name, get_json_object(get_json_object(regexp_replace(result, ‘NaN’, ‘""’), ‘.savevariables′),′.save_var

HIVE SQL 优化

weixin_46010244的博客

10-16

1219

因为count distinct操作需要用一个Reduce Task来完成，这一个Reduce需要处理的数据量太大，就会导致整个Job很难完成，一般count distinct使用先group by再count的方式替换，虽然会多用一个Job来完成，但在数据量大的情况下，这个绝对是值得的。数据倾斜的原理都知道，就是某一个或几个key占据了整个数据的90%，这样整个任务的效率都会被这个key的处理拖慢，同时也可能会因为相同的key会聚合到一起造成内存溢出。其中在开发过程中主要涉及到的可能是SQL优化这块。

hiveSql调优

tyh1579152915的博客

05-25

1752

| 前是map阶段执行，后的reduce阶段执行1、执行 from，进行表的查找与加载，注意要join的表也要加载进来（MapJoin除外）；2、执行 where，sql 语句中 left join 写在 where 之前的，但是实际执行先执行 where 操作，因为 Hive 会对语句进行优化，如果符合谓词下推规则，将进行谓词下推；3、如果join的是小表，可以执行 Map join 操作，按照 key 进行表的关联；4、执行输出列的操作，

Hive SQL优化：解读执行计划

"Hive与SQL优化的探讨集中在如何利用EXPLAIN命令分析和优化Hive SQL查询。通过理解执行计划，我们可以识别性能瓶颈并采取相应措施提高查询效率。本文将详细介绍不同类型的EXPLAIN选项以及它们在SQL优化中的作用。" ...