Hive
文章平均质量分 64
Hive知识
依晴无旧
专注大数据、Java后端、软件测试、Linux端的技术研究
展开
-
Hive基础知识(六):Hive 配置运行日志信息、打印当前库和表头、参数配置方式
另外,Hive 也会读入 Hadoop 的配置,因为。原创 2024-01-10 08:30:00 · 1293 阅读 · 0 评论 -
Hive基础知识(十一):Hive的数据导出方法示例
1)将查询的结果导出到本地2)将查询的结果格式化导出到本地(加上一个以“,”隔开数据的格式)3)将查询的结果导出到 HDFS 上(没有 local)原创 2024-01-13 08:00:00 · 551 阅读 · 0 评论 -
Hive基础知识(十五):Hive中SQL排序方式全解
Order By:全局排序,只有一个 Reducer1)使用 ORDER BY 子句排序ASC(ascend): 升序(默认)DESC(descend): 降序2)ORDER BY 子句在 SELECT 语句的结尾3)案例实操(1)查询员工信息按工资升序排列(2)查询员工信息按工资降序排列。原创 2024-01-15 08:25:14 · 1379 阅读 · 0 评论 -
Hive基础知识(十四):Hive的八种Join使用方式与优缺点
Hive 支持通常的 SQL JOIN 语句。1)案例实操(1)根据员工表和部门表中的部门编号相等,查询员工编号、员工名称和部门名称;原创 2024-01-14 08:30:00 · 613 阅读 · 0 评论 -
Hive基础知识(十六):Hive-SQL分区表使用与优化
分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区,这样的。原创 2024-01-15 08:33:36 · 1465 阅读 · 0 评论 -
Hive基础知识(二一):优化篇-执行计划与Fetch抓取
1)基本语法2)案例实操(1)查看下面这条语句的执行计划没有生成 MR 任务的有生成 MR 任务的(2)查看详细执行计划(多加一个extends)原创 2024-06-26 22:00:51 · 237 阅读 · 0 评论 -
Hive基础知识(十九):Hive 自定义函数
0)需求:41)创建一个 Maven 工程 Hive2)导入依赖3)创建一个类/***@author:左泽林*@date:日期:2021-12-20-时间:16:28*@message:*///校验数据参数个数= 1){throw new UDFArgumentException("参数个数不为1");//处理数据//1.取出输入数据//2.判断输入数据是否为nullreturn 0;//3.返回输入数据的长度。原创 2024-06-25 05:56:09 · 357 阅读 · 0 评论 -
Hive基础知识(四):Hive 元数据配置到 MySQL
将 MySQL 的 JDBC 驱动拷贝到 Hive 的 lib 目录下。原创 2024-01-09 09:30:00 · 606 阅读 · 0 评论 -
Hive基础知识(七):Hive 数据类型全解
对于 Hive 的 String 类型相当于数据库的 varchar 类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB 的字符数。原创 2024-01-11 08:00:00 · 656 阅读 · 0 评论 -
Hive基础知识(十七):Hive-SQL分桶表使用
分区提供一个隔离数据和优化查询的便利方式。不过,并非所有的数据集都可形成合理的分区。对于一张表或者分区,Hive 可以进一步组织成桶,也就是更为细粒度的数据范围划分。分桶是将数据集分解成更容易管理的若干部分的另一个技术。原创 2024-06-24 22:20:35 · 292 阅读 · 0 评论 -
Hive基础知识(十三):Hive的Group by语句与Having语句
GROUP BY 语句通常会和聚合函数一起使用,按照一个或者多个列队结果进行分组,然后对每个组执行聚合操作。1)案例实操:(1)计算 emp 表每个部门的平均工资(2)计算 emp 每个部门中平均薪资大于2000,及部门平均薪资。(3)计算 emp 每个部门中每个岗位的最高薪水。原创 2024-01-14 08:00:00 · 1170 阅读 · 0 评论 -
Hive基础知识(一):Hive入门与Hive架构原理
1) hive 简介Hive:由 Facebook 开源用于解决的数据统计工具。Hive 是基于 Hadoop 的一个工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。2) Hive 本质:将 HQL 转化成 MapReduce 程序(1)Hive 处理的数据存储在 HDFS(2)Hive 分析数据底层的实现是 MapReduce(3)执行程序运行在 Yarn 上。原创 2024-01-08 09:15:00 · 1231 阅读 · 0 评论 -
Hive基础知识(十二):Hive的基本查询
0)数据准备原始数据(1)创建部门表(2)创建员工表(3)导入数据1)全表查询2)选择特定列查询注意:(1)SQL 语言大小写不敏感。(2)SQL 可以写在一行或者多行(3)关键字不能被缩写也不能分行(4)各子句一般要分行写。(5)使用缩进提高语句的可读性。原创 2024-01-13 08:15:00 · 988 阅读 · 0 评论 -
Hive基础知识(二):Hive 安装部署教程
1)把 apache-hive-3.1.2-bin.tar.gz 上传到 linux 的/opt/software 目录下2)解压 apache-hive-3.1.2-bin.tar.gz 到/opt/module/目录下面3)解决日志 Jar 包冲突4)初始化元数据库。原创 2024-01-08 09:30:00 · 524 阅读 · 0 评论 -
Hive基础知识(八):Hive对数据库的增删改查操作
1)创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。2)避免要创建的数据库已经存在错误,增加 if not exists 判断。(标准写法)3)创建一个数据库,指定数据库在 HDFS 上存放的位置。原创 2024-01-11 08:15:00 · 601 阅读 · 0 评论 -
Hive基础知识(十八):Hive 函数的使用
1)查看系统自带的函数2)显示自带的函数的用法3)详细显示自带的函数的用法。原创 2024-06-24 22:35:35 · 1052 阅读 · 0 评论 -
Hive基础知识(十):Hive导入数据的五种方式
1)语法(1)load data:表示加载数据(2)local:表示从本地加载数据到 hive 表;否则从 HDFS 加载数据到 hive 表(3)inpath:表示加载数据的路径(4)overwrite:表示覆盖表中已有数据,否则表示追加(5)into table:表示加载到哪张表(6)student:表示具体的表(7)partition:表示上传到指定分区2)实操案例(0)创建一张表(1)加载本地文件到 hive(2)加载 HDFS 文件到 hive 中上传文件到 HDFS。原创 2024-01-12 09:13:29 · 1478 阅读 · 0 评论 -
Hive基础知识(二十三):数据倾斜优化
都很快完成,, 这样的现象为数据倾斜现象。一定要和数据过量导致的现象区分开,数据过量的表现为所有任务都执行的很慢,这个 时候只有提高执行资源才可以优化 HQL 的执行效率。综合来看,导致数据倾斜的原因在于按照 Key 分组以后,,也就是说产生数据倾斜的 HQL 中一定存在分组操作,那么从 HQL 的角度,我们可 以将数据倾斜分为。原创 2024-06-27 21:44:25 · 415 阅读 · 1 评论 -
Hive基础知识(二二):优化篇-Hadoop数据底座下的优化
1)通常情况下,作业会通过 input 的目录产生一个或者多个 map 任务。主要的决定因素有:input 的文件总个数,input 的文件大小,集群设置的文件块大小。2)是不是 map 数越多越好?答案是否定的。如果一个任务有很多小文件(远远小于块大小 128m),则每个小文件 也会被当做一个块,用一个 map 任务来完成,而一个 map 任务启动和初始化的时间远远大 于逻辑处理的时间,就会造成很大的资源浪费。而且,同时可执行的 map 数是受限的。原创 2024-06-26 22:05:11 · 835 阅读 · 0 评论 -
Hive基础知识(二十四):Hive Job 优化
当 input 的文件都很大,任务逻辑复杂,map 执行非常慢的时候,可以考虑增加 Map 数,来使得每个 map 处理的数据量减少,从而提高任务的执行效率。增加 map 的方法为:根据公式, 调整 maxSize 最大值。让 maxSize 最大值低于 blocksize 就可以增加 map 的个数。案例实操:1)执行查询2)设置最大切片值为 100 个字节。原创 2024-06-27 21:49:57 · 545 阅读 · 0 评论 -
Hive基础知识(二十):Hive 文件存储形式与文件压缩对比
存储文件的查询速度测试:原创 2024-06-25 18:23:27 · 1204 阅读 · 0 评论 -
Hive基础知识(五):Hive 配置 JDBC方式访问
一般会组合使用: nohup [xxx 命令操作]> file 2>&1 &,表示将 xxx 命令运行的结果输出到 file 中,并保持命令启动的进程在后台运行。1)在 hive-site.xml 文件中添加如下配置信息。内容如下:此脚本的编写不要求掌握。3)启动 beeline 客户端(需要多等待一会)2)启动 hiveserver2。如上命令不要求掌握。原创 2024-01-10 08:15:00 · 844 阅读 · 0 评论 -
Hive基础知识(九):Hive对数据库表的增删改查操作
在建表的时候,用户还需要为表指定列,用户在指定表的列的同时也会指定自定义的 SerDe,,有时也被称为内部表。(2)EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时可以指定一个指向实际数据的路径(LOCATION),在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。在外部表(原始日志表)的基础上做大量的统计分析,用到的中间表、结果表使用内部表存储,数据通过 SELECT+INSERT 进入内部表。(2)根据查询结果创建表(查询的结果会添加到新创建的表中)原创 2024-01-12 09:09:02 · 1824 阅读 · 0 评论