![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
离线数仓
闻香识代码
这个作者很懒,什么都没留下…
展开
-
DataX简介(3.0版本)
DataX简介(3.0版本)1. 背景1.1. 概览在大数据处理业务框架中,需要处理的数据一般是2个来源(行为日志和业务数据),有些公司如果有python部门,就需要加上python数据这一个。python数据因为各个公司以及各个页面和接口中数据差异较大,一般需要针对公司和特定业务编写程序进行解析,然后存入HDFS或者其他分布式文件系统中。一般都是编写Spark程序(可以分布式进行处理,效率对比java程序要更高。当然,也可以使用java编写mapreduce程序)。行为日志数据,此前已经说过原创 2020-10-18 20:16:40 · 4084 阅读 · 3 评论 -
数仓架构(离线和实时)--企业版
数仓架构图–企业版1. 背景数仓,这是一个并不新颖的词语。在PC时代,就有传统数仓,当时数据一般存放在数据库中,一般是Oracle或者Mysql集群中。因为那时候数据量还不是非常大,所以使用数据库集群就可以进行数据的存储和查询分析,集合前端web页面就能做数据交互式的查询和展示。进入互联网时代之后,由于移动设备和移动通信技术快速发展,来自移动端的数据几何倍数增加,传统数仓技术已经无法支撑这么海量的数据存储和查询分析。现代化数仓应运而生。PS:移动互联网时代,因为都是敏捷开发,为了更好研究客户原创 2020-10-13 23:26:11 · 2361 阅读 · 1 评论