![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数仓
文章平均质量分 50
wudl5566
这个作者很懒,什么都没留下…
展开
-
sqoop创建hive表结构以及同步数据
1.sqoop创建hive表结构以及同步数据命令 创建hive 表结构/export/servers/sqoop/bin/sqoop create-hive-table \--connect jdbc:mysql://192.168.1.140:3306/tags_dat \--table tbl_users \--username root \--password 123456 \--hive-table tags_dat.tbl_users \--fields-terminated-by原创 2021-06-14 21:56:49 · 872 阅读 · 1 评论 -
数据湖—Delta Lake
1.数据湖的简单介绍:1.1 官网https://delta.io/看一张官网的图1.2 特点:1.不限格式,来之不拒,均可流入2.集中存储、到处可访问。3.高性能分析能力 -- 借助于Spark、MR、SparkSQL等高性能分析计算引擎,可以对海量的数据进行分析。4.原始数据存储5.数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。1.3 数据湖,数据仓库, 数据集市 的对比比较数据仓库数据集市数据湖应用范围原创 2021-06-10 00:02:16 · 1245 阅读 · 0 评论 -
大数据数仓之拉链表的设计思路
1. 为了解决大数据数据仓库中,不能更新的问题, 我们就采用拉链表进行弥补了这样的问题。拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。2.采用的架构3.实现过程3.1 比如数据有一张表test_student以下是2021年1月3号的数据,idnamecreate_timeupdate_time1hdfs2021-02-03 09:45:162021-02-03 09:45:原创 2021-02-04 17:54:50 · 405 阅读 · 0 评论