【数仓】大数据体系总述

  建模系列文章主要讲解大数据的数仓建模的整体流程,目标是通过对建模系列文章的学习能够对大数据的整个体系有一个清楚的认识。博主也是在面试的过程中了解到了阿里的《大数据之路》这本书。建模系列文章就按照《大数据之路》的脉络来学习大数据的体系和数据模型。

  今天首先学习数据体系。大数据的架构是不断变化的,从开始兴起一直发展到现在,数据体系架构经过了多次演进,如今数据体系主要可以分为下面四层:

  • 数据采集
  • 数据计算
  • 数据服务
  • 数据应用

  下图展现了大数据系统体系架构图(图片来自《大数据之路》):

在这里插入图片描述

1.数据采集层

  从上图中可以看到,数据来源主要有两部分:

  • 业务数据:主要存在数据库中
  • 日志数据:主要来自日志文件

  部分公司可能还有爬虫数据。日志采集会在后面文章中单独讲解。

2.数据计算层

  数据通过整合计算之后,才对对它进行深度挖掘,实现大数据的价值。这一层就是对刚刚收集到的海量原始数据进行计算,也就是构建数据仓库的过程。数据仓库主要分为离线数仓和实时数仓:

  • 离线数据仓库:频率一般是日、周、月、年
  • 实时数据仓库:流式计算

  数仓的建设遵循分层的理念,传统的数据加工链路包括以下几层:

  • 操作数据层(Operatio
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值