数据仓库
文章平均质量分 91
数据仓库
坤岭
这个作者很懒,什么都没留下…
展开
-
数据湖调研
数据湖(Data Lake)是一种大数据存储架构,它允许存储大量不同类型和格式的数据,并支持用于数据分析和机器学习的高级查询和处理。数据湖是为了解决大数据场景下的遗留问题而产生的,为打破数据孤岛而诞生。数据湖的特点如下:灵活性。数据湖可以容纳不同类型和格式的数据,不需要先进行结构化处理,强调原始数据的存储和管理。分布式存储。通常使用分布式文件系统,如Hadoop或Amazon S3作为底层存储引擎,数据可以以原始格式存储,例如JSON、CSV或Parquet等。成本效益。原创 2024-05-19 23:09:25 · 1024 阅读 · 0 评论 -
数据仓库建模
数仓建模不以规矩,不能成方圆。火车之所以能奔驰千里,是因为它始终离不开两条铁轨;风筝之所以能飞翔万尺,是因为它总是情系着手中的线;大江东流,日月交替,大自然生生不息,用规则演绎着生命的轨迹。先确认主题,然后是维度建模的四个步骤。原创 2024-05-26 13:33:25 · 1038 阅读 · 0 评论 -
实时数仓~
Canal 是用java 开发的基于数据库增量日志解析,提供增量数据订阅&消费的中间件。目前,Canal 主要支持了 MySQL 的 Binlog 解析,解析完成后才利用Canal Client 来处理获得的相关数据。(数据库同步需要阿里的Otter 中间件,基于Canal)。Canal 的工作原理,是把自己伪装成 Slave,假装从Master 复制数据MySQL 主从复制过程Master 主库将改变记录,写到二进制日志(Binary log)中。原创 2024-03-17 18:44:31 · 890 阅读 · 0 评论