hive优化到底应该怎么优化（面试必备）

最新推荐文章于 2023-02-24 22:45:28 发布

VIP文章 Mr.梧桐

最新推荐文章于 2023-02-24 22:45:28 发布

阅读量758

点赞数

文章标签： hive 面试 hadoop

本文链接：https://blog.csdn.net/weixin_49165958/article/details/126304318

版权

前言：这是个老生常谈的话题，也是几乎面试必问的问题，以下是个人整理的心得，各位看官可以借鉴参考一下
主要从三个方面来说
1.参数调优
2.sql调优
3.资源调优

1.参数调优

本地模式：当数据量较小的时候，启动分布式处理数据会比较慢，启动时间较长，不如本地模式快，用下面的参数来调整

 SET hive.exec.mode.local.auto=true; -- 默认 false 
 SET hive.exec.mode.local.auto.inputbytes.max=50000000; --输入文件的大小小于 hive.exec.mode.local.auto.inputbytes.max 配置的大小
 SET hive.

最低0.47元/天解锁文章

优惠劵

Mr.梧桐

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hive优化到底应该怎么优化（面试必备）

hive优化
复制链接

扫一扫

Hive优化（提高hive运行速度）

01-20

文章目录一、Hive使用本地模式执行操作（Hive使用资源大于20M的时候还是会采用集群yarn的方式运行）具体设置方法1、设置临时的2、修改hive配置文件（hive-site.xml），永久有效二、一、Hive使用本地模式执行操作...

Hive调优之运行Tez时检查到用过多内存而被NodeManager杀死进程

youhaitao_do的博客

11-29

770

运行Tez时检查到用过多内存而被NodeManager杀死进程问题其中解决方案三和方案四在实际项目测试中对问题的解决产生了效果 Caused by: org.apache.tez.dag.api.SessionNotRunning: TezSession has already shutdown. Application application_1546781144082_0005 failed 2 times due to AM Container for appattempt_154678114

参与评论您还未登录，请先登录后发表或查看评论

运行Tez时检查到用过多内存而被杀死进程问题

qq_43494678的博客

02-08

325

一报错 Caused by: org.apache.tez.dag.api.SessionNotRunning: TezSession has already shutdown 这种问题是从机上运行的Container试图使用过多的内存，而被NodeManager kill掉了二解决方法修改yarn-site.xml <property> <name>yarn.nodemanager.vmem-check-enabled</name> <value>

hivesql的几种优化的方法

寒夜二十五

04-05

2755

目前项目中由于数据量巨大，导致一个sql要跑一个多小时，所以找了些可以优化的点，记录下来，以后方便使用。 1.map的优化，job在map task的过程时间较长 set mapreduce.map.memory.mb=8240; set mapreduce.reduce.memory.mb=8240; set hive.merge.mapfiles=false; set mapreduce.input.fileinputformat.split.maxsize=50000000; set hive.e

【Hive】Hive常见问题排查技巧

可乐

08-31

1972

一、作业慢或者有问题，先看Yarn链接 1.作业Pending问题查看通常是资源问题 ACCEPTED: waiting for AM container to be allocated 表示AM的资源都没有分配 Pending很多，Running很少队列资源用满情况分类队列满了，不一定是vcore满，可能是内存满了，使用不合理都是先把内存用满了解决办法： 1.杀作业,停止不重要作业，保障优先级 2.加队列资源队列满的情况，有时候是因为用户内存设置太大，建议业务砍内存 Config

Hive sql在执行时如何优化？

科小勒的博客

07-10

378

02-26

hive 面试宝典 spark hive优化

12-07

hive 面试宝典，hive常见问题，hive优化非常详细

Hive思维导图之Hive优化

06-11

Hive思维导图之Hive优化

Hive优化.docx

07-01

Join 查找操作的基本原则：应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段，位于 Join 操作符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生内存...

Hive Sql整体优化思路

aidway的专栏

02-24

392

Hive Sql整体优化思路

hive reduce资源数过多导致集群内资源堵塞方案解决

brtghtrd的专栏

09-05

747

我们先看一看map中对reduce个数产生影响的两个参数 hive.exec.reducers.bytes.per.reducer（每个reduce任务处理的数据量，默认为1000^3=1G） hive.exec.reducers.max（每个任务最大的reduce数，默认为999） hive计算reducer数的公式很简单N=min(参数2，总输入数据量/参数1) ,即如果reduce的输...

使用tez引擎出现内存溢出问题

First_____的博客

05-07

2192

tez引擎出现: java.lang.OutOfMemoryError: Java heap space 问题

ambai中tez任务占用yarn内存过多

AnameJL的博客

10-24

1962

计算资源调优

Hive on Tez 参数调优

liuwei063608的专栏

06-06

3345

Hive on Tez 调优一、配置参数调优 1、开启ORC表向量化执行：向量化查询执行通过一次处理一个 1024 行的块来大幅提高IO效率（必须以ORC格式存储数据） set hive.vectorized.execution.enabled = true; set hive.vectorized.execution.reduce.enabled = true; – 当前环境hive版本暂不支持 2、优化ORC表谓词下推根据ORC表的特性尽早过滤数据，提高执行效率 ...

Hive优化方法汇总

大数据的奇妙冒险

12-02

988

Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如：SELECT * FROM employees;在这种情况下，Hive 可以简单地读取 employee 对应的存储目录下的文件，然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more，老版本 hive 默认是 minimal，该属性修改为 more 以后，在全局查找、字段查找、limit 查找等都不走ma

Hive优化的十大方法

thy822的专栏

08-06

9774

hive 优化

Hive学习资料

编程中的点滴体验

05-22

5299

官网 https://hive.apache.org/ 在线教程 http://gitbook.net/hive/index.html 书籍《Hive编程指南》在线文章 hive大数据倾斜总结 http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842860.html hive的查询注意事项以及优化总结

电商数仓3.0 数仓搭建之Hive关于Yarn调度器并发度问题解决

SmallScorpion

10-27

388

默认队列default Yarn默认调度器为Capacity Scheduler（容量调度器），且默认只有一个队列——default。如果队列中执行第一个任务资源不够，就不会再执行第二个任务，一直等到第一个任务执行完毕。解决办法一：增加ApplicationMaster资源比例，进而提高运行app数量。解决办法二：创建多队列，比如增加一个hive队列。 // 由于未指定队列，初始化的 spark session 默认占用 defaul 队列，且会一直占用该队列，直到 hive 客户端退出 hive (d

hivesql优化面试题

07-27

Hive SQL优化面试题通常涉及以下几个方面： 1. 查询优化：了解如何通过索引、分区等技术来优化Hive SQL查询性能。可以提到使用合适的索引、分区和分桶来减少数据扫描量，提高查询效率。 2. 性能调优：理解常见的性能瓶颈和优化策略，例如避免全表扫描、减少数据倾斜、合理设置并行度等。可以提到使用合适的数据类型、避免不必要的数据转换、使用合适的连接方式等来提高性能。 3. EXPLAIN关键字的使用：掌握使用EXPLAIN关键字来分析查询执行计划，了解查询的执行顺序和涉及的操作，从而找到潜在的性能问题并进行优化。 4. 解答优化相关的题目：在面试中可能会遇到一些关于查询优化和性能调优的具体问题，例如如何优化某个特定的查询语句，如何处理大数据量的查询等。在回答时可以结合自己的实际经验和知识来给出合理的解决方案。综上所述，Hive SQL优化面试题主要涉及查询优化、性能调优、使用EXPLAIN关键字分析查询计划以及解答具体的优化问题。掌握这些知识和技巧可以帮助提升在Hive SQL领域的技能和竞争力。 #### 引用[.reference_title] - *1* *3* [Hive SQL大厂面试题必考大全](https://blog.csdn.net/m0_47256162/article/details/131687792)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [Hive SQL面试题(附答案)](https://blog.csdn.net/a934079371/article/details/122227602)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insertT0,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交