![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
HIVE
文章平均质量分 89
000X000
这个作者很懒,什么都没留下…
展开
-
Hive参数与性能调优-V2.0
Hive参数与性能调优-V2.0原创 2023-09-16 19:38:27 · 810 阅读 · 0 评论 -
详细解释HiveSQL执行计划
Hive SQL的执行计划描述SQL实际执行的整体轮廓,通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑,掌握了执行逻辑也就能更好地把握程序出现的瓶颈点,从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的,看似不等价的SQL其实是等价的SQL。可以说执行计划是打开SQL优化大门的一把钥匙。explain,在查询语句的SQL前面加上关键字explain是查看执行计划的基本方法。学会explain,能够给我们工作中使用hive带来极大的便利!原创 2023-09-16 19:16:43 · 519 阅读 · 0 评论 -
2023-Hive性能企业级调优
Hive性能企业级调优原创 2023-04-28 09:34:02 · 725 阅读 · 0 评论 -
2023-Hive必备详细教程
2023-Hive必备详细教程原创 2023-04-28 09:14:28 · 1716 阅读 · 0 评论 -
Hive SQL 2023必考常用窗口函数及面试题
Hive SQL 2023必考常用窗口函数及面试题原创 2023-04-03 09:14:15 · 727 阅读 · 0 评论 -
2023-Hive调优最全指南
2023年Hive调优最全指南原创 2023-03-22 16:28:25 · 562 阅读 · 0 评论 -
Hive SQL 高级函数使用
Hive SQL 高级函数使用原创 2022-08-26 09:22:46 · 1473 阅读 · 0 评论 -
Hive、SparkSQL是如何决定写文件的数量的?
Hive、SparkSQL是如何决定写文件的数量的?原创 2022-08-16 13:18:02 · 471 阅读 · 0 评论 -
详述Hive企业级开发优化
详述Hive企业级开发优化原创 2022-08-16 13:17:09 · 395 阅读 · 0 评论 -
Hive数仓建表数据存储格式选型方法
Hive数仓建表数据存储格式选型方法原创 2022-08-04 10:14:23 · 784 阅读 · 1 评论 -
书写SQL必养成的好习惯
书写SQL必养成的好习惯原创 2022-07-19 09:23:34 · 551 阅读 · 1 评论 -
Hive 拉链表实践
Hive 拉链表实践原创 2022-06-14 14:53:40 · 667 阅读 · 2 评论 -
学会Hive解析Json数组
学会Hive解析Json数组原创 2022-06-14 14:48:09 · 5971 阅读 · 0 评论 -
Hive 性能调优大全
Hive 性能调优大全原创 2022-06-13 10:53:20 · 3829 阅读 · 0 评论 -
Spark数据倾斜解决方案
Spark数据倾斜解决方案原创 2022-05-30 15:21:17 · 291 阅读 · 0 评论 -
HiveSQL原理和优化详解
HiveSQL原理和优化详解转载 2022-04-13 16:50:47 · 2631 阅读 · 2 评论 -
Hive Sql 最强最完整学习笔记
Hive Sql 最强最完整学习笔记转载 2022-04-13 16:32:43 · 1854 阅读 · 0 评论 -
hive小文件过多问题解决方法
hive小文件过多问题解决方法原创 2022-04-11 09:04:17 · 2903 阅读 · 2 评论 -
Hive千亿级数据倾斜解决方案
数据倾斜解决方案转载 2022-04-07 09:06:20 · 392 阅读 · 0 评论 -
Hive基础调优详解
本文基本涵盖以下内容: 一、基于Hadoop的数据仓库Hive基础知识 二、HiveSQL语法 三、Hive性能优化 四、Hive性能优化之数据倾斜专题 五、HiveSQL优化十二板斧 六、Hive面试题(一) 七、Hive/Hadoop高频面试点集合(二) 基于Hadoop的数据仓库Hive基础知识Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的原创 2021-08-24 09:04:18 · 498 阅读 · 0 评论 -
HiveSQL统计分析
问题导读:1、怎样使用SQL统计出每个用户的累积访问次数?2、怎样使用SQL查询和排序亿级记录?3、怎样使用SQL查询并排序分组取出前10?第一题1、需求我们有如下的用户访问数据userId visitDate visitCount u01 2021/1/21 5 u02 2021/1/23 6 u03 2021/1/22 8 u04 2021/1/20 3 u01 ...原创 2021-07-12 09:33:35 · 1620 阅读 · 2 评论 -
Hive开发造成数据倾斜案例
1.Hive数据倾斜优化分为哪两类?2.Hive开发中,为何会出现倾斜?3.Hive倾斜本文有哪些解决方案?实际搞过离线数据处理的同学都知道,Hive SQL 的各种优化方法都是和数据倾斜密切相关的,所以我会先来聊一聊 “「数据倾斜」” 的基本概念,然后再在此基础上为大家介绍各种场景下的 Hive 优化方案。Hive 的优化分为 「join 相关的优化」 和 「join 无关的优化」 。从项目实际来说, join 相关的优化其实占据了 Hive 优化的大部分内容,而 join 相关的优化又分为 mapjoi原创 2021-02-25 09:55:41 · 436 阅读 · 0 评论 -
SparkSQL HiveSQL 常用正则表达式
SparkSQL HiveSQL 常用正则表达式目录 SparkSQL HiveSQL 常用正则表达式1、匹配汉字:2、匹配手机号码3、匹配身份证:4、SparkSQL HiveSQL 常用正则函数:5、SparkSQL分组 ...原创 2020-12-03 15:30:53 · 4597 阅读 · 0 评论 -
Hive SQL 经典优化
问题导读1.怎样优化亿级数据表的查询?2.怎样优化复杂的SQL查询?3.怎样优化使用函数的复杂SQL的查询?HiveSQL经典优化案例一:1.1 将要执行的查询(执行了 1个多小时才出结果):SELECT dt as DATA_DATE,STRATEGY,AB_GROUP,SOURCE, count(distinct case when lower(event) not like '%push%' and event!='corner_mark_show' then udid el.原创 2020-09-28 09:46:20 · 362 阅读 · 0 评论 -
Hive配置文件中配置项的含义详解
这里面列出了hive几乎所有的配置项,下面问题只是说出了几种配置项目的作用。更多内容,可以查看内容问题导读:1.hive输出格式的配置项是哪个?2.hive被各种语言调用如何配置?3.hive提交作业是在hive中还是hadoop中?4.一个查询的最后一个map/reduce任务输出是否被压缩的标志,通过哪个配置项?5.当用户自定义了UDF或者SerDe,这些插件的jar都要放到这个目录下,通过那个配置项?6.每个reducer的大小,默认是1G,输入文件如果是10G,那么就会起10个redu原创 2020-07-23 14:25:04 · 1039 阅读 · 0 评论 -
hive支持sql大全(收藏版)
目录一、关系运算:... 41. 等值比较: =. 42. 不等值比较: <>. 43. 小于比较: <. 44. 小于等于比较: <=. 45. 大于比较: >. 56. 大于等于比较: >=. 57. 空值判断: IS NULL. 58. 非空判断: IS NOT NULL. 69. LIKE比较: LIKE. 6...原创 2020-03-20 09:49:52 · 1354 阅读 · 0 评论 -
Hive数据倾斜(大表join大表)【优化】
业务背景用户轨迹工程的性能瓶颈一直是etract_track_info,其中耗时大户主要在于trackinfo与pm_info进行左关联的环节,trackinfo与pm_info两张表均为GB级别,左关联代码块如下:[SQL] 1 2 3 from trackinfo a left outer join pm_...原创 2020-03-20 09:47:34 · 1622 阅读 · 0 评论 -
如何在 Flink 1.9 中使用 Hive?
Flink on Hive 介绍SQL 是大数据领域中的重要应用场景,为了完善 Flink 的生态,发掘 Flink 在批处理方面的潜力,我们决定增强 FlinkSQL 的功能,从而让用户能够通过 Flink 完成更多的任务。Hive 是大数据领域最早出现的 SQL 引擎,发展至今有着丰富的功能和广泛的用户基础。之后出现的 SQL 引擎,如 Spark SQL、Impala 等,都在一定程...原创 2019-12-30 16:57:06 · 163 阅读 · 0 评论 -
Apache Flink 连接并使用 Hive
Apache Flink 从 1.9.0 版本开始增加了与 Hive 集成的功能,用户可以通过 Flink 来访问 Hive 的元数据,以及读写 Hive 中的表。本文将主要从项目的设计架构、最新进展、使用说明等方面来介绍这一功能。Flink onHive 介绍SQL 是大数据领域中的重要应用场景,为了完善 Flink 的生态,发掘 Flink 在批处理方面的潜力,我们决定增强 Flin...原创 2019-12-17 15:48:08 · 872 阅读 · 0 评论 -
Hive 中各种字符串转换成日期格式
Please refer below table to convert any date format into fixed format i.e yyyy-MM-dd .Input column name: dt (String).Replace dt with your column name.Input Format Code Output Format ddMMyy...原创 2019-03-29 10:36:04 · 58176 阅读 · 8 评论 -
Hive概念、架构、原理详细介绍
问题导读1.什么是数据仓库?2.传统数据仓库面临怎样的挑战?3.hive是什么?4.hive系统构架是怎样的?5.hive的工作原理是怎样的?6.hive HA基本原理是什么?7.Impala是什么?8.Impala的系统架构是怎样的?9.Impala查询执行过程是怎样的?10.Impala和hive的区别在哪里?11.hive如何安装配置?12.hive的基本数据类型和基本...原创 2019-05-13 11:21:29 · 583 阅读 · 0 评论 -
Hive复制分区表结构以及表数据
目录1、创建一张表,即将要被复制的表old_table:2、向old_table中添加数据,新建文本文件data.txt,向其中添加三行数据,建表时的分隔符为逗号,所以我们用逗号分隔:3、使用load命令向表中添加数据:4、复制该表结构到新表,即new_table:5、然后将使用命令hadoop fs -cp旧表数据复制到新表的hdfs目录下:6、使用命令 MSCK ...原创 2019-05-30 14:56:09 · 1625 阅读 · 0 评论 -
实用!Hive常用优化方法总结
问题导读:1、如何理解列裁剪和分区裁剪?2、sort by代替order by优势在哪里?3、如何调整group by配置?4、如何优化SQL处理join数据倾斜?Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQ...转载 2019-06-13 09:58:57 · 560 阅读 · 0 评论 -
hive 合并小文件处理方案
hadoop使用lzo压缩,block块大小为512MB环境:hadoop2.6+hive1.2.1 lzo压缩启动压缩set hive.exec.compress.output=true;set mapreduce.output.fileoutputformat.compress=true;1、减少map数,(当有大量小文件时,启动合并)set hive.input...原创 2019-06-03 10:28:04 · 4480 阅读 · 0 评论 -
Hive技术初探
1 概述1.1 基本介绍1.2 技术比较 Hive与传统数据库比较 Hive与Hbase比较 Hive 是个SQL引擎,HBase是个存储引擎,类似MySql, 有个SQL引擎解析处理SQL语句,另外用 Innodb,Myisam,Ndb做数据存储引擎。 1.3 优缺点1.4 应用场景2 体...原创 2019-06-25 14:53:27 · 175 阅读 · 0 评论 -
Hive 系列之 HSQL 转换成 MapReduce 过程
hive的整体架构图如下所示, compiler部分负责把HiveSQL转换成MapReduce任务。Paste_Image.png基本转换步骤hiveSQL转换成MapReduce的执行计划包括如下几个步骤:HiveSQL ->AST(抽象语法树) -> QB(查询块) ->OperatorTree(操作树)->优化后的操作树->mapreduce任...原创 2019-06-25 17:32:08 · 1095 阅读 · 0 评论 -
Spark SQL/Hive调优
1. 数据倾斜的原因1.1 操作关键词 情形 后果 Join 其中一个表较小,但是key集中 分发到某一个或几个Reduce上的数据远高平均值 大表与大表,但是分桶的判断字段0值或空值过多 这些空值都由一个reduce处理,非常慢 group by group by 维度过小,某值的数量过多 处理某值的reduce非常耗时 ...原创 2019-06-25 17:35:57 · 414 阅读 · 0 评论 -
Hive性能优化全面解析
问题导读:1、Hive表设计层面优化有哪些内容?2、语法和参数层面如何进行优化?3、如何进行Join、Group By 、Order By 、COUNT DISTINCT优化?4、Hive架构层面如何优化?在工作中使用hive比较多,也写了很多HiveQL。这里从三个方面对 Hive 常用的一些性能优化进行了总结。一、表设计层面优化利用分区表优化分区表 是在某一个或者几个维度上对数据进行分...原创 2019-07-23 09:19:42 · 374 阅读 · 0 评论 -
Hive元数据上亿级别存储方案的实践
问题导读1.什么是元数据 Federation 方案?2.怎样引入 Federation 方案?3.怎样改造现有服务?▍背景Apache Hive 是基于 Apache Hadoop 之上构建的数据仓库,提供了简单易用的类 SQL 查询语言,适合对大规模数据进行存储、查询操作,被广泛使用。Hive 元数据 Metadata 包含用 Hive 创建的 Database、Table、Partiti...原创 2019-07-23 09:25:23 · 1514 阅读 · 0 评论