- 博客(11)
- 收藏
- 关注
转载 数仓增量更新hive实现
有一个base_table表存放的是12月15日之前的所有数据,当12月16日的数据产生后,生成了一个incremental_table表。现在需要,将incremental_table这个增量表的数据更新到base_table表中。这样的话,就会存在重复的数据,保留了历史数据。(2)不保留了历史数据。...
2022-07-29 18:19:48 1391
转载 (转)漫谈数据仓库之拉链表(原理、设计以及在Hive中的实现)
有一些表的数据量很大,比如一张用户表,大约10亿条记录,50个字段,这种表,即使使用ORC压缩,单张表的存储也会超过100G,在HDFS使用双备份或者三备份的话就更大一些。3.举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive场景下的设计为例)。而且我们要确定拉链表的时间粒度,比如说拉链表每天只取一个状态,也就是说如果一天有3个状态变更,我们只取最后一个状态,这种天粒度的表其实已经能解决大部分的问题了。...
2022-07-29 09:52:18 491
原创 hive学习
数组湖北,武汉#襄阳#宜昌 广东,广州#深圳#东莞四川,成都#攀枝花create table t_array(province string,city array<string>)comment 'this is table'row format delimited fields terminated by '|'collection items terminated by '#' --定义数组的每个数据项的分割符使用array中元素,访问数组中的某一个元素hive
2020-05-31 22:57:47 214
原创 hadoop伪分布式安装
1.软件准备hadoop-2.6.0-cdh5.16.2.tar.gzjdk-8u181-linux-x64.tar.gz具体jdk版本根据官网要求https://hadoop.apache.org/docs/r2.10.0/hadoop-project-dist/hadoop-common/SingleCluster.html#Required_Software2.linux环境配置设置hostname [root@hadoop001 ~]# vim /etc/hosts127.
2020-05-12 16:21:47 178
原创 mysql安装
创建java安装目录[root@hadoop001 ~]# mkdir /usr/java[root@hadoop001 ~]# tar -xzvf jdk-8u45-linux-x64.gz -C /usr/java/[root@hadoop001 ~]# cd /usr/java注意解压后要修改文件夹的权限[root@hadoop001 java]# lltotal ...
2020-04-26 16:55:58 109
转载 数据仓库--事实表
事实表分成三种:事务事实表、周期快照事实表、累计快照事实表事务事实表官方定义是:发生在某个时间点上的一个事件。比如以订单为例:下单是一个事实、付款是一个事实、退款是一个事实,所有事实的累计就是事务事实表周期快照事实表如果需要对某一天或者某个月的数据进行分析,那么可以使用周期快照事实表,比如:以天举例,财务报表一般都是周期快照事实表,它的最细粒度主键就是:日期+订单累计快照事实表累计快照...
2020-04-23 16:51:07 328
原创 LINUX常用命令之三
1.查看磁盘,内存,负载磁盘 df -h[root@Dev-CDH-Master-9-61 ~]# df -h文件系统 容量 已用 可用 已用% 挂载点/dev/mapper/centos-root 47G 21G 27G 44% /devtmpfs 7.8G 0 7.8G 0% /dev...
2020-04-23 10:02:56 164
原创 linux基础
linux基础之lsls -l 列出当前目录下的文件,并显示文件权限,用户及用户组,ls -l 等价于ll2.ls -trl 显示文件且按时间升序- ls -lh 显示文件,且显示文件大小单位kcd 切换目录进入home目录几种方式cd ~cd 回车cd $HOMEcd dircd dir/dir2cd … 上一级目录cd …/…上两级目录cd -返回上一次...
2020-04-22 11:06:43 216
转载 数仓
逻辑分层数仓分层,一般按ods->dw->dm整体架构。不同的企业,不同的业务场景,有衍生出不同的分层架构模式。例如经典四层架构:ods->dwd->dws-ads,bdl->fdl->gdl->adl等。技术选型,传统数仓一般以Oracle、greenplum、teradata 等,互联网数仓一般以Hadoop生态圈为主,离线以Hive为核心,准实...
2020-04-22 11:05:33 1305
转载 Hive 拉链表实践
背景拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的;顾名思义,所谓拉链表,就是记录历史。记录一个事务从开始一直到当前状态的所有变化的信息。拉链表可以避免按每一天存储所有记录造成的海量存储问题,同时也是处理缓慢变化数据(SCD2)的一种常见方式。应用场景现假设有如下场景:一个企业拥有5000万会员信息,每天有20万会员资料变更,需要在数仓中记录会员表的历史变化以备分析...
2020-04-22 10:13:09 347
原创 linux基础之二
命令目录/usr/bin存放普通用户及管理员可以执行的基础命令如ls,cat,grep/usr/sbin存放管理员命令 比如useradd userdel groupadd等查看用户和用户组相关的命令有哪些[root@chen ~]# ll /usr/sbin/user*-rwxr-x— 1 root root 118192 Nov 6 2016 /usr/sbin/useradd...
2020-04-21 10:28:34 113
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人