自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Hadoop数据仓库——Hive 索引概念与常用操作

表示索引将在以后重建。

2024-05-22 10:15:52 256

原创 Hadoop数据仓库——Hive 视图概念与常用操作

Hive 不直接支持视图的修改,但是可以通过。通过上述语句,可以创建一个名为。: 与查询普通表一样,使用。的视图,其内容是基于。

2024-05-21 17:57:38 242

原创 Hadoop数据仓库——hive环境配置

2024-05-21 17:46:57 404

原创 Hadoop数据仓库——Hive 内置函数

6.Hive内置函数介绍3。7.Hive内置函数介绍4。

2024-05-21 17:45:04 290

原创 Hadoop数据仓库——Hive 窗口函数

6.窗口函数-聚合类。6.窗口函数-分析类。

2024-05-21 17:44:12 204

原创 Hadoop数据仓库——Hive 聚合操作

Hive排序与聚合Hive分组聚合1Hive分组聚合2

2024-05-21 17:43:23 297

原创 Hadoop数据仓库——Hive 数据排序

1.Hive排序方法2.Hive分组聚合13.Hive分组聚合2

2024-05-21 17:42:38 286

原创 Hadoop数据仓库——Hive数据关联操作

ALL和DISTINCT子句表示是否返回重复行,默认是ALL,返回所有匹配行。DISTINCT子句可以返回删除结果集中的重复行。LIMIT子句用于限制SELECT语句返回的行数。

2024-05-21 17:41:50 219

原创 Hadoop数据仓库—— Hive元数据的定义与操作存储

仅仅获取元数据而不操作的话,使用hive-metastore组件更加合适。hive-jdbc,通过JDBC方式连接HiveServer2(已提)hive-metastore,通过访问metastore服务实现。hive-metastore通过面向对象的方式访问数据库数据。Hive为Java环境提供两种方式对元数据进行访问。

2024-05-21 17:40:31 188

原创 Hadoop数据仓库——元数据概念与表的结构

Hive元数据存储在RDBMS中,有三种存储模式。包括Hive表的数据库名、表名、字段名与类型等。元数据存储在Derby数据库,是默认的存储方式。在同一数据库目录下只能有一个Hive客户端使用。远程服务模式,使用远程元数据服务访问数据库。单用户模式,使用内置Derby数据库。多用户模式,使用本地MySQL数据库。优点:Derby小巧易用,安装方便。单用户存储模式适合在测试环境中使用。元数据是描述真实数据的数据。单用户存储模式优缺点。

2024-05-21 17:38:47 227

原创 Hadoop数据仓库——Hive分区、分桶

数据分区(Partitioning)Hive中的分区是一种根据“分区键”(如日期、地区等)将表中的数据分散存储到不同文件夹中的方法。这样做的好处是可以提高查询效率,因为当查询涉及到分区字段时,Hive只需要扫描相关的分区,而不是整张表。举例:假设有一个关于网站访问日志的表web_logs,我们可以按日期对这个表进行分区:CREATE TABLE web_logs ( id INT, url STRING, ip STRING, time STRING)PA

2024-05-21 17:23:43 275

原创 Hadoop数据仓库——Hive内部表与外部表

外部表被drop后,表的metadata会被删除,但是data不会被删除。(1)外部表:因其指删除表时不会删除HDFS上的数据,安全性相对较高,且指定目录的特性,适合数据需要共享或者数据的处理需要 hive和其他工具一起处理的场景。内部表(managed table): 未被external修饰的表,也叫管理表。外部表:删除表会删除表的元数据(metadata),但不会删除表数据(data)。内部表:删除表会删除表的元数据(metadata)和表数据(data)。

2024-05-21 17:23:33 355

原创 Hadoop数据仓库——Hive DDL操作

Hive 不支持直接修改桶的数量。您需要重新创建表并指定新的桶数,然后重新加载数据。Hive 不支持直接修改数据库,但您可以更改数据库的属性。Hive 不支持直接删除桶的信息。您需要重新创建表并重新加载数据。1. 创建一个新表,包含修改后的列。2. 将旧表的数据插入到新表中。4. 将新表重命名为旧表的名称。

2024-05-21 17:23:26 430

原创 Hadoop数据仓库——Hive的数据类型

分区可以按时间、地区等维度划分数据,分桶可以将数据分散到多个文件中,减少单个文件的大小。SEQUENCEFILE:这是一种二进制格式的文件,支持压缩,可以减少存储空间和提高读取效率。PARQUET:这也是一种列式存储格式,与ORCFILE类似,提供了高效的压缩和查询性能。TEXTFILE:这是Hive的默认格式,适合于文本数据,但不支持压缩和高效的数据访问。数据库:合理设计数据库,避免一个数据库中包含过多的表,可以提高查询效率。分桶:合理选择分桶的列,可以减少数据倾斜,提高查询效率。布尔:BOOLEAN。

2024-05-21 17:23:18 268

原创 Hadoop数据仓库

Hadoop数据仓库是基于Hadoop生态系统构建的大数据存储和处理平台,旨在支持大规模数据的存储、管理、处理和分析。它集成了Hadoop分布式文件系统(HDFS)作为底层存储,并利用Hadoop的分布式计算能力执行数据处理任务。

2024-05-21 17:23:10 416

原创 Hadoop数据仓库——Hive

Hive 执行的本质仍然是MapReduce, 但多了一步 SQL 至MapReduce 的转化操作,所以相同条件下,Hive 在运行时并没有直接编写 MapReduce 执行效率高。Hive 的元数据使用 RDBMS 存储,Hive 的数据存储在 HDFS 中,大部分数据查询由 MapReduce 完成。Hive 具有 SQL 数据库的很多类似功能,但应用场景完全不同,故在使用的时候要特别注意其的自身特性。②Hive 支持运行在不同的计算框架上,包括 YARN、Tez、Spark、Flink 等。

2024-05-21 17:22:58 443

Python实训项目-我爱背单词-源代码

Python实训项目-我爱背单词-源代码

2024-06-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除