自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 问答 (1)
  • 收藏
  • 关注

原创 Hive 视图的基本操作(简版)

【代码】Hive 视图的基本操作(简版)

2024-05-31 10:02:49 235

原创 Hive 视图概念与常用操作

6.视图与表的差异视图是虚拟的,不存储数据;表是实际存储数据的。视图的创建基于已有的表或视图;表是直接创建的。对视图的查询实际上是执行了视图定义中的查询语句;对表的查询直接从表中读取数据。注意事项视图定义中的查询不能包含 ORDER BY 和 LIMIT 子句。视图不能包含 INSERT、UPDATE 或 DELETE 操作。

2024-05-21 18:23:30 353

原创 Hive 内置函数

  进入 hive 客户端,通过命令show functions来查看系统内置的函数,默认内置了 289 个函数。通过命令desc function 函数名可以查看自带函数的描述,通过命令desc function extended 函数名可查看自带函数详细的用法。2.Hive函数分类

2024-05-21 18:17:05 264

原创 Hive 窗口函数

我们都知道在sql中有一类函数叫做,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。在深入研究Over字句之前,一定要注意:在SQL处理中,窗口函数都是最后一步执行,而且仅位于Order by字句之前。

2024-05-21 18:06:33 519

原创 Hive 元数据定义与操作存储

元数据是指描述数据的数据,也可以称为“数据的数据”。它是一种关于数据的信息,包括数据的属性、结构、语义和约束等方面。元数据可以帮助我们更好地理解数据的含义和使用方式,也可以为数据的管理、维护和共享提供支持。

2024-05-21 17:52:19 261

原创 Hive 聚合操作

Hive中的聚合操作通常与GROUP BY语句一起使用,GROUP BY语句可以将表中的数据按照指定的字段进行分组,以便对每个组中的数据进行聚合计算。例如,我们可以使用GROUP BY语句将某张表中的数据按照某个字段分组,然后使用SUM函数计算每组数据中该字段的总和。它们可以用来统计数据中某个字段的数量、总和、平均值、最大值或最小值。聚合操作是Hive中的一种非常常见的数据处理方式,它可以对表中的数据进行分组、计算、筛选等操作,生成聚合结果。

2024-05-21 17:31:36 160

原创 Hive 分区分桶

我们便可以创建分区rank(注意rank不是表中的列,我们可以把它当做虚拟列),并将相应数据导入指定分区(将数据插入指定目录)。表可以同时分区和分桶,当表分区时,每个分区下都会有<num_buckets> 个桶。我们先看一下创建分桶表的创建,分桶表的建表有三种方式:直接建表,CREATE TABLE LIKE 和 CREATE TABLE AS SELECT ,单值分区表不能用 CREATETABLE AS SELECT 建表。在向分区表中插入数据时,需要指定分区列的值。语句查询特定分区的数据。

2024-05-21 17:23:44 244

原创 Hive 数据关联操作

交叉连接的数据条数就是两个表的笛卡尔积(两表数据条数之积),交叉连接后的数据不存在配对关系,其sql甚至不需要指定。公共表达式可以表示一个临时的结果集,该表通过一个简单的查询指定,只要在CTE语句范围内均可共享该临时表。join操作符==左边表中==符合where子句的所有记录将会被返回。join操作符==右边表中==符合where子句的所有记录将会被返回。右边表的指定字段没有符合条件的值的话,那么就使用null值替代。左边表的指定字段没有符合条件的值的话,那么就使用null值替代。

2024-04-25 17:04:21 310 3

原创 Hive 排序

对结果集进行全局排序,数据规模较大时,比较耗时。,指出数据在每个reducer内如何排序的,通常与distribute by一起使用。,控制Map输出在Reducer中的划分。,相当于distribute by和sort by结合。

2024-04-25 16:35:16 144 4

原创 元数据的概念及存储方式

Hive 服务、metastore服务运行在同一进程中,而MySQL服务运行在单独的进程中。对metastore客户端来说,其无须再配置MySQL连接信息,指定metastore服务地址即可(主要是在hive-site.xml中配置hive.metastore.uris)。这是一个类似 URL的链接地址,用于通过thrift 前级连接metastorethritt 前缀的格式为:thrif:/METASTORE HOST:PORT,如果有多个metastore服务,须使用逗号将它们分隔。

2024-04-07 10:18:37 1403

原创 Hive 库表操作

OVERWRITE:覆盖目标文件夹中的数据,如果没有该关键字且目标文件夹中已存在同名文件,将保留之前的文件,新文件名后缀以自动序号区分。Hive 使用SerDe 读写表的每一行数据。前面提到,无论是CLI还是Beeline, Hive Shell 都可以通过两种模式运行,即交互模式与命令行模式。上述3种设定方式的优先级依次递增,即SET关键字设定参数覆盖命令行设定参数,命令行设定参数又覆盖配置文件设定参数。> load命令不对数据进行任何转换,只是简单地将数据复制或者移动至Hive 表对应的位置。

2024-04-07 09:56:47 702

原创 Hive 数据类型

Hive 中的基本数据类型也称为原始类型,包括整数、小数、文本、布尔、二进及时间类型。上述数据类型都是对Java中的接口的实现,所以类型的具体行为细节和Java中对应的类型完全一致。比如STRING 类型实现的是Java中的String,FLOAT类型实现的是Java中的float。

2024-04-07 09:03:54 855

原创 Hive内部表与外部表

外部表被drop后,表的metadata会被删除,但是data不会被删除。(1)外部表:因其指删除表时不会删除HDFS上的数据,安全性相对较高,且指定目录的特性,适合数据需要共享或者数据的处理需要 hive和其他工具一起处理的场景。内部表(managed table): 未被external修饰的表,也叫管理表。外部表:删除表会删除表的元数据(metadata),但不会删除表数据(data)。内部表:删除表会删除表的元数据(metadata)和表数据(data)。

2024-03-29 09:03:54 460 1

原创 Hive 产生背景与架构设计

Apache Hive(以下简称 Hive)是一个由 Apache 软件基金会维护的开源项目,由Facebook 贡献。其前身是Apache Hadoop中的一个子项目,现已成为Apache 顶级项目。Hive 是一个基于 Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,同时可以将SOL语句转化为MapReduce作业进行运行。Hive 具有一系列功能,可以进行数据提取、转化和加载,是一种可以查询和分析存储在Hadoop 中的大规模数据的工具。

2024-03-08 13:50:11 607 1

原创 hive 环境配置

是适用于Windows的Docker桌面,是Docker设计用于在Windows 10上运行。它是一 个本地 Windows应用程序,为构建、交付和运行dockerized应用程序提供易于使用的开发环境。使用Windows原生Hyper-V虚拟化和网络,是在Windows上开发Docker应用程序的最快、最可靠的方式。Windows版Docker桌面支持运行Linux和WindowsDocker容器。

2024-03-01 15:00:38 1382 1

原创 数据仓库及应用

数据仓库是一种面向商务智能 (BI) 活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。在实际应用中,数据仓库中的数据一般来自应用日志文件和事务应用等广泛来源。数据仓库能够集中、整合多个来源的大量数据,借助数据仓库的分析功能,企业可从数据中获得宝贵的业务洞察,改善决策。同时,随着时间推移,它还会建立一个对于数据科学家和业务分析人员极具价值的历史记录。得益于这些强大的功能,数据仓库可为企业提供一个“单一信息源”。

2024-03-01 09:51:36 1295 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除