理论篇~第一章 大数据数据仓库架构

    接下来,我们以阿里巴巴大数据架构图来介绍。


    大数据系统体系分为数据采集层、数据计算层、数据服务层和数据应用层。简单介绍一下这四层的具体作用和使用到的技术(讲述的内容包含但不限于阿里巴巴的知识):

    1 数据采集层

         数据采集的对象主要是传统数据库数据和日志数据。一般公司采用sqoop开源工具采集传统数据库数据,大公司会开发专门工具。例如,阿里的DataX和同步中心。

日志数据采集来源分为Web端和APP端。

        在采集技术基础上,阿里巴巴用面向各个场景的埋点规范,来满足通用浏览、点击、特殊交互、APP事件、H5及APP里的H5和Native日志数据打通等多种业务场景。


    2 数据计算层

         数据只有被整合和计算,才能被用于洞察商业规律,挖掘潜在信息,从而实现大数据价值,达到赋予的商业和创造价值的目的。

         在构建全域数据体系,应遵循统一、规范、可共享等特点,避免数据的冗余和重复建设,规避数据烟囱和不一致性,充分发挥大数据海量、多样性方面的优势。

         从数据计算频率角度,数据仓库可分离线数据仓库和实时数据仓库。离线数据仓库主要是指传统的数据仓库概念&

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值