数据仓库
文章平均质量分 80
记录数据仓库相关的知识
小枫@码
多做一步、多说一句话、多做一件正向的事情
展开
-
数据湖概念以及数据湖产生的背景和价值
数据湖是一个集中式存储库,允许以任意规模存储所有结构化和非结构化数据。是构建在低成本分布式存储之上,提供更好事务和性能支持的统一数据存储系统。可以看出,由于采用了HDFS或公有云存储,所以数据湖在保存数据上,具有低成本大容量的优点,并且能够保存多种多样的数据,比如结构化、半结构化和非结构化数据;另外,由于表抽象层的存在,保证了ACID事务支持,同时提供了良好的扩展能力,可以面向不同的计算需求对接不同的计算引擎。原创 2024-01-03 09:44:00 · 600 阅读 · 0 评论 -
Kimball维度建模
先举个例子:对于用户来讲,一个用户有一个身份证号,一个户籍地址,多个手机号,多张银行卡,那么与用户粒度相同的粒度属性有身份证粒度,户籍地址粒度,比用户粒度更细的粒度有手机号粒度,银行卡粒度,存在一对一的关系就是相同粒度。每行中的数据是一个特定级别的细节数据,称为粒度。若是该列是对具体值的描述,是一个文本或常量,某一约束和行标识的参与者,此时该属性每每是维度属性,数仓工具箱中告诉咱们仅仅掌握事实表的粒度,就能将全部可能存在的维度区分开,而且要确保维度表中不能出现重复数据,应使维度主键唯一。原创 2023-05-18 11:01:56 · 471 阅读 · 1 评论 -
Hive的Metastore服务和Hiveserver2服务的说明
Metastore的作用:客户端连接metastore服务,metastore再去连接Mysql数据库来存取元数据。有了Metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要知道Mysql数据库的用户名和密码,只需要连接metastore服务即可。1.2、Hive先连接Metastore服务,再通过Metastore服务连接Mysql获取元数据。如果我们想通过jdbc的方式来连接hive,那么我们就需要开启Hiveserver2服务了。启动方式:只需直接启动Hive客户端,即可连接。原创 2023-05-18 09:22:50 · 849 阅读 · 0 评论