自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Hive 库表操作

OVERWRITE:覆盖目标文件夹中的数据,如果没有该关键字且目标文件夹中已存在同名文件,将保留之前的文件,新文件名后缀以自动序号区分。Hive 使用SerDe 读写表的每一行数据。前面提到,无论是CLI还是Beeline, Hive Shell 都可以通过两种模式运行,即交互模式与命令行模式。上述3种设定方式的优先级依次递增,即SET关键字设定参数覆盖命令行设定参数,命令行设定参数又覆盖配置文件设定参数。> load命令不对数据进行任何转换,只是简单地将数据复制或者移动至Hive 表对应的位置。

2024-06-28 22:26:02 500

原创 hive产生背景与架构设计

Hive Client Hive客户端,可通过Java、Python等语言连接Hive并进行与RDBMS类似的SQL查询。包含Hive的数据存储与计算的内容,Hive元数据存储在RDBMS中,数据存储在HDFS。可扩展,Hive 可以自由 展集群规模在生产环境中,Hive 有如下优势。Hive服务端,客户端必须通过服务端与Hive交互,主要包括。延展性,Hive 支持自定义函数,用户可根据需求自定义。延展性,Hive支持自定义函数,用户可根据需求自定义。Hive 与SQL有着相似的语法,大大提高开发效率。

2024-06-28 22:24:21 205

原创 数据仓库及应用

一个精心设计的数据仓库支持高速查询、高数据吞吐量,能够凭借出色的灵活性帮助用户细分数据或降低数据量,进而执行更加细致的数据检查,满足高层级和精细化数据管理等各种需求。数据仓库能够集中、整合多个来源的大量数据,借助数据仓库的分析功能,企业可从数据中获得宝贵的业务洞察,改善决策。传统数据仓库:传统数据仓库是基于关系型数据库技术的,主要用于存储和管理企业的结构化数据。沙盒:沙盒可提供一个专有的安全区域,帮助企业快速、非正式地探索新的数据集或新的数据分析方式,而无需遵守或遵循数据仓库的正式规则和协议。

2024-06-28 22:21:49 395

原创 元数据的概念及存储方式

对metastore客户端来说,其无须再配置MySQL连接信息,指定metastore服务地址即可(主要是在hive-site.xml中配置hive.metastore.uris)。将元数据存储介质更换为MySQL,即为多用户模式,这是开发中经常使用的模式。无论使用哪种模式,Hive客户端均须首先连接metastore服务,然后由metastore服务去访问数据库以完成元数据的存取。在远程模式下,Hive 服务和metastore 服务可以在不同的进程中,也可以在不同的主机中,这样便可使二者解耦。

2024-06-28 22:20:59 267

原创 多表联合查询

HQL JOIN 类似于 SQL JOIN,但其仅支持等值连接,具体包括内连接(INNER JOIN)、外连接(OUTER JOIN)与交叉连接(CROSS JOIN)。全外连接结合了左连接和右连接的结果,即:对左表而言,右表中不符合连接条件的记录显示为 NULL:对右表而言,左表中不符合连接条件的记录显示为 NULL。外连接分为3类:左外连接(LEFT OUTER JOIN)、右外连接 (RIGHIT OUTER JOIN)和全外连接(FULL OUTER JOIN)。左外连接简称左连接。

2024-06-28 22:20:11 246

原创 hive元数据

按元数据存储位置划分,单用户与多用户模式均属于本地存储,远程服务模式属于远端存储。前面提到 Hive 中有两类数据:真实数据和元数据。和关系型数据库一样,元数据可以看作是描述数据的数据,包括 Hive 表的数据库名、表名、字段名称与类型、分区字段与类型等。> PARTITIONS、PARTITION_KEYS、PARTITION_KEY_VALS、PARTITION_PARAMS: 存储分区相关信息。> SDS、SD_PARAMS、SERDES、SERDE_PARAMS:存储 Hive 文件存储相关信息。

2024-06-28 22:19:25 264

原创 掌握hive数据存储模型

RCFILE 遵循“先水平划分,再垂直划分”的设计理念:首先把 Hive 表水平切分成多个行组,保证同一行的数据位于同一节点,其次在行组内按照“列”垂直切分,实现列与列的数据在磁盘上呈现为连续的存储块。外部表指向已经存在 HDFS 中的数据,与内部表元数据组织是相同的,但其数据存放位置是任意的。RCFILE 遵循“先水平划分,再垂直划分”的设计理念:首先把 Hive 表水平切分成多个行组,保证同一行的数据位于同一节点,其次在行组内按照“列”垂直切分,实现列与列的数据在磁盘上呈现为连续的存储块。

2024-06-28 22:18:54 314

原创 Hive 窗口函数

我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这时我们便引入了窗口函数。在深入研究Over字句之前,一定要注意:在SQL处理中,窗口函数都是最后一步执行,而且仅位于Order by字句之前。

2024-06-28 22:17:54 389

原创 hive DDL操作

OVERWRITE:覆盖目标文件夹中的数据,如果没有该关键字且目标文件夹中已存在同名文件,将保留之前的文件,新文件名后缀以自动序号区分。Hive DDL 用于定义 Hive 数据库模式,其命令包括 create、drop、alter、truncate、show和 describe 等,主要是对数据库和表进行创建、修改、删除等操作。在实际使用过程中,通常也利用insert命令完成数据的导出。上述3种设定方式的优先级依次递增,即SET关键字设定参数覆盖命令行设定参数,命令行设定参数又覆盖配置文件设定参数。

2024-06-28 22:16:22 725

原创 hive高级操作——排序

语法上SORT BY 与ORDER BY 相似,但从作用上看,ORDER BY可以看作是 SORT BY 的一个特例:当 SORT BY 的Reducer 数目设置1时,等同于ORDER BY。所以在 strict(hive.mapred.mode=strict,默认是 nonstrict) 模式下,Hive 对 ORDER BY进行了限制,要求 ORDER BY 子句后必须跟随 “LIMIT”子句,以防止单个 Reducer处理时间过长。ORDER BY 性能较差,应尽量在排序前对数据进行过滤。

2024-06-28 22:15:19 276

原创 Hive 数据类型

cast(timestamp as date):基于本地时区确定时间戳的年月日,并将其作为值cast(string as date):如果字符串的格式为“yyyy-MM-dd”,则返回对应的日期,否则返回NULL。VARCHAR(20)与 CHAR(20)的区别是:如果存入的字符串长度为10,则VARCHAR(20)占用实际字符串长度为10,而CHAR(20)占用实际字符串长度仍为20,未使用的空间将会用空格填充。Hive 中的基本数据类型也称为原始类型,包括整数、小数、文本、布尔、二进及时间类型。

2024-06-28 22:14:14 276

原创 Hive 分区分桶

我们便可以创建分区rank(注意rank不是表中的列,我们可以把它当做虚拟列),并将相应数据导入指定分区(将数据插入指定目录)。表可以同时分区和分桶,当表分区时,每个分区下都会有<num_buckets> 个桶。我们先看一下创建分桶表的创建,分桶表的建表有三种方式:直接建表,CREATE TABLE LIKE 和 CREATE TABLE AS SELECT ,单值分区表不能用 CREATETABLE AS SELECT 建表。查询分桶表的语法与普通表类似,可以使用SELECT语句查询特定桶的数据。

2024-06-28 22:12:52 332

原创 hive内部表和外部表的区别

数据都存储在HDFS上,内部表由hive自身管理,外部表数据由HDFS管理;元数据都存储在mysql上,也叫mysql管理。内部表:未被external修饰的表,也叫管理表。外部表删除表会删除表的元数据,但不会删除表数据。内部表:删除表会删除表的元数据和表数据。外部表:被external修饰的表。

2024-03-21 14:26:10 170 1

原创 hive的基本操作

create table,hive创建表比较灵活可以定义表的数据文件存储位置,使用的存储格式等。大多数表属性可以通过alter table来修改。可以使用like来拷贝跟原表结构一样的一张空表。

2024-03-21 11:58:20 103 1

原创 Ubuntu配置hive环境

(5)修改Hadoop集群配置core-site.xml,添加如下配置并重启集群。(1)创建、配置hive-site.xml文件。(3)创建、配置hive-env.sh 文件。(7)启动远程服务HiveServer 2。(2)将配置文件中的内容替换为如下配置。(8)打开控制台命令行工具。(6)Hive初始化。

2024-03-21 11:44:19 443 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除