zjydsd-CSDN博客

原创 Hive 库表操作

OVERWRITE：覆盖目标文件夹中的数据，如果没有该关键字且目标文件夹中已存在同名文件，将保留之前的文件，新文件名后缀以自动序号区分。Hive 使用SerDe 读写表的每一行数据。前面提到，无论是CLI还是Beeline， Hive Shell 都可以通过两种模式运行，即交互模式与命令行模式。上述3种设定方式的优先级依次递增，即SET关键字设定参数覆盖命令行设定参数，命令行设定参数又覆盖配置文件设定参数。> load命令不对数据进行任何转换，只是简单地将数据复制或者移动至Hive 表对应的位置。

2024-06-28 22:26:02 520

原创 hive产生背景与架构设计

Hive Client Hive客户端，可通过Java、Python等语言连接Hive并进行与RDBMS类似的SQL查询。包含Hive的数据存储与计算的内容，Hive元数据存储在RDBMS中，数据存储在HDFS。可扩展，Hive 可以自由展集群规模在生产环境中，Hive 有如下优势。Hive服务端，客户端必须通过服务端与Hive交互，主要包括。延展性，Hive 支持自定义函数，用户可根据需求自定义。延展性，Hive支持自定义函数，用户可根据需求自定义。Hive 与SQL有着相似的语法，大大提高开发效率。

2024-06-28 22:24:21 224

原创数据仓库及应用

一个精心设计的数据仓库支持高速查询、高数据吞吐量，能够凭借出色的灵活性帮助用户细分数据或降低数据量，进而执行更加细致的数据检查，满足高层级和精细化数据管理等各种需求。数据仓库能够集中、整合多个来源的大量数据，借助数据仓库的分析功能，企业可从数据中获得宝贵的业务洞察，改善决策。传统数据仓库：传统数据仓库是基于关系型数据库技术的，主要用于存储和管理企业的结构化数据。沙盒：沙盒可提供一个专有的安全区域，帮助企业快速、非正式地探索新的数据集或新的数据分析方式，而无需遵守或遵循数据仓库的正式规则和协议。

2024-06-28 22:21:49 416

原创元数据的概念及存储方式

对metastore客户端来说，其无须再配置MySQL连接信息，指定metastore服务地址即可（主要是在hive-site.xml中配置hive.metastore.uris)。将元数据存储介质更换为MySQL，即为多用户模式，这是开发中经常使用的模式。无论使用哪种模式，Hive客户端均须首先连接metastore服务，然后由metastore服务去访问数据库以完成元数据的存取。在远程模式下，Hive 服务和metastore 服务可以在不同的进程中，也可以在不同的主机中，这样便可使二者解耦。

2024-06-28 22:20:59 324

原创多表联合查询

HQL JOIN 类似于 SQL JOIN，但其仅支持等值连接，具体包括内连接（INNER JOIN）、外连接（OUTER JOIN）与交叉连接（CROSS JOIN）。全外连接结合了左连接和右连接的结果，即：对左表而言，右表中不符合连接条件的记录显示为 NULL：对右表而言，左表中不符合连接条件的记录显示为 NULL。外连接分为3类：左外连接（LEFT OUTER JOIN）、右外连接（RIGHIT OUTER JOIN）和全外连接（FULL OUTER JOIN）。左外连接简称左连接。

2024-06-28 22:20:11 256

原创 hive元数据

按元数据存储位置划分，单用户与多用户模式均属于本地存储，远程服务模式属于远端存储。前面提到 Hive 中有两类数据：真实数据和元数据。和关系型数据库一样，元数据可以看作是描述数据的数据，包括 Hive 表的数据库名、表名、字段名称与类型、分区字段与类型等。> PARTITIONS、PARTITION_KEYS、PARTITION_KEY_VALS、PARTITION_PARAMS：存储分区相关信息。> SDS、SD_PARAMS、SERDES、SERDE_PARAMS：存储 Hive 文件存储相关信息。

2024-06-28 22:19:25 275

原创掌握hive数据存储模型

RCFILE 遵循“先水平划分，再垂直划分”的设计理念：首先把 Hive 表水平切分成多个行组，保证同一行的数据位于同一节点，其次在行组内按照“列”垂直切分，实现列与列的数据在磁盘上呈现为连续的存储块。外部表指向已经存在 HDFS 中的数据，与内部表元数据组织是相同的，但其数据存放位置是任意的。RCFILE 遵循“先水平划分，再垂直划分”的设计理念：首先把 Hive 表水平切分成多个行组，保证同一行的数据位于同一节点，其次在行组内按照“列”垂直切分，实现列与列的数据在磁盘上呈现为连续的存储块。

2024-06-28 22:18:54 324

原创 Hive 窗口函数

我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。在深入研究Over字句之前，一定要注意：在SQL处理中，窗口函数都是最后一步执行，而且仅位于Order by字句之前。

2024-06-28 22:17:54 407

原创 hive DDL操作

OVERWRITE：覆盖目标文件夹中的数据，如果没有该关键字且目标文件夹中已存在同名文件，将保留之前的文件，新文件名后缀以自动序号区分。Hive DDL 用于定义 Hive 数据库模式，其命令包括 create、drop、alter、truncate、show和 describe 等，主要是对数据库和表进行创建、修改、删除等操作。在实际使用过程中，通常也利用insert命令完成数据的导出。上述3种设定方式的优先级依次递增，即SET关键字设定参数覆盖命令行设定参数，命令行设定参数又覆盖配置文件设定参数。

2024-06-28 22:16:22 744

原创 hive高级操作——排序

语法上SORT BY 与ORDER BY 相似，但从作用上看，ORDER BY可以看作是 SORT BY 的一个特例：当 SORT BY 的Reducer 数目设置1时，等同于ORDER BY。所以在 strict（hive.mapred.mode=strict，默认是 nonstrict）模式下，Hive 对 ORDER BY进行了限制，要求 ORDER BY 子句后必须跟随 “LIMIT”子句，以防止单个 Reducer处理时间过长。ORDER BY 性能较差，应尽量在排序前对数据进行过滤。

2024-06-28 22:15:19 292

原创 Hive 数据类型

cast(timestamp as date）：基于本地时区确定时间戳的年月日，并将其作为值cast(string as date)：如果字符串的格式为“yyyy-MM-dd”，则返回对应的日期，否则返回NULL。VARCHAR(20)与 CHAR(20)的区别是：如果存入的字符串长度为10，则VARCHAR(20)占用实际字符串长度为10，而CHAR(20)占用实际字符串长度仍为20，未使用的空间将会用空格填充。Hive 中的基本数据类型也称为原始类型，包括整数、小数、文本、布尔、二进及时间类型。

2024-06-28 22:14:14 287

原创 Hive 分区分桶

我们便可以创建分区rank（注意rank不是表中的列，我们可以把它当做虚拟列），并将相应数据导入指定分区（将数据插入指定目录）。表可以同时分区和分桶，当表分区时，每个分区下都会有<num_buckets> 个桶。我们先看一下创建分桶表的创建，分桶表的建表有三种方式：直接建表，CREATE TABLE LIKE 和 CREATE TABLE AS SELECT ，单值分区表不能用 CREATETABLE AS SELECT 建表。查询分桶表的语法与普通表类似，可以使用SELECT语句查询特定桶的数据。

2024-06-28 22:12:52 344

zjydsd的博客