轩丸子-CSDN博客

原创 Hive 视图的基本操作（简版）

【代码】Hive 视图的基本操作（简版）

2024-05-31 10:02:49 412

原创 Hive 视图概念与常用操作

6.视图与表的差异视图是虚拟的，不存储数据；表是实际存储数据的。视图的创建基于已有的表或视图；表是直接创建的。对视图的查询实际上是执行了视图定义中的查询语句；对表的查询直接从表中读取数据。注意事项视图定义中的查询不能包含 ORDER BY 和 LIMIT 子句。视图不能包含 INSERT、UPDATE 或 DELETE 操作。

2024-05-21 18:23:30 614

原创 Hive 内置函数

进入 hive 客户端，通过命令show functions来查看系统内置的函数，默认内置了 289 个函数。通过命令desc function 函数名可以查看自带函数的描述，通过命令desc function extended 函数名可查看自带函数详细的用法。2.Hive函数分类

2024-05-21 18:17:05 441

原创 Hive 窗口函数

我们都知道在sql中有一类函数叫做,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。在深入研究Over字句之前，一定要注意：在SQL处理中，窗口函数都是最后一步执行，而且仅位于Order by字句之前。

2024-05-21 18:06:33 636

原创 Hive 元数据定义与操作存储

元数据是指描述数据的数据，也可以称为“数据的数据”。它是一种关于数据的信息，包括数据的属性、结构、语义和约束等方面。元数据可以帮助我们更好地理解数据的含义和使用方式，也可以为数据的管理、维护和共享提供支持。

2024-05-21 17:52:19 462

Hive中的聚合操作通常与GROUP BY语句一起使用，GROUP BY语句可以将表中的数据按照指定的字段进行分组，以便对每个组中的数据进行聚合计算。例如，我们可以使用GROUP BY语句将某张表中的数据按照某个字段分组，然后使用SUM函数计算每组数据中该字段的总和。它们可以用来统计数据中某个字段的数量、总和、平均值、最大值或最小值。聚合操作是Hive中的一种非常常见的数据处理方式，它可以对表中的数据进行分组、计算、筛选等操作，生成聚合结果。

2024-05-21 17:31:36 312

原创 Hive 分区分桶

我们便可以创建分区rank（注意rank不是表中的列，我们可以把它当做虚拟列），并将相应数据导入指定分区（将数据插入指定目录）。表可以同时分区和分桶，当表分区时，每个分区下都会有<num_buckets> 个桶。我们先看一下创建分桶表的创建，分桶表的建表有三种方式：直接建表，CREATE TABLE LIKE 和 CREATE TABLE AS SELECT ，单值分区表不能用 CREATETABLE AS SELECT 建表。在向分区表中插入数据时，需要指定分区列的值。语句查询特定分区的数据。

2024-05-21 17:23:44 570

原创 Hive 数据关联操作

交叉连接的数据条数就是两个表的笛卡尔积（两表数据条数之积），交叉连接后的数据不存在配对关系，其sql甚至不需要指定。公共表达式可以表示一个临时的结果集，该表通过一个简单的查询指定，只要在CTE语句范围内均可共享该临时表。join操作符==左边表中==符合where子句的所有记录将会被返回。join操作符==右边表中==符合where子句的所有记录将会被返回。右边表的指定字段没有符合条件的值的话，那么就使用null值替代。左边表的指定字段没有符合条件的值的话，那么就使用null值替代。

2024-04-25 17:04:21 518 3

原创 Hive 排序

对结果集进行全局排序，数据规模较大时，比较耗时。，指出数据在每个reducer内如何排序的，通常与distribute by一起使用。，控制Map输出在Reducer中的划分。，相当于distribute by和sort by结合。

2024-04-25 16:35:16 327 4

原创元数据的概念及存储方式

Hive 服务、metastore服务运行在同一进程中，而MySQL服务运行在单独的进程中。对metastore客户端来说，其无须再配置MySQL连接信息，指定metastore服务地址即可（主要是在hive-site.xml中配置hive.metastore.uris)。这是一个类似 URL的链接地址，用于通过thrift 前级连接metastorethritt 前缀的格式为：thrif:/METASTORE HOST:PORT，如果有多个metastore服务，须使用逗号将它们分隔。

2024-04-07 10:18:37 2041

原创 Hive 库表操作

OVERWRITE：覆盖目标文件夹中的数据，如果没有该关键字且目标文件夹中已存在同名文件，将保留之前的文件，新文件名后缀以自动序号区分。Hive 使用SerDe 读写表的每一行数据。前面提到，无论是CLI还是Beeline， Hive Shell 都可以通过两种模式运行，即交互模式与命令行模式。上述3种设定方式的优先级依次递增，即SET关键字设定参数覆盖命令行设定参数，命令行设定参数又覆盖配置文件设定参数。> load命令不对数据进行任何转换，只是简单地将数据复制或者移动至Hive 表对应的位置。

2024-04-07 09:56:47 1016