接下来,我们以阿里巴巴大数据架构图来介绍。
大数据系统体系分为数据采集层、数据计算层、数据服务层和数据应用层。简单介绍一下这四层的具体作用和使用到的技术(讲述的内容包含但不限于阿里巴巴的知识):
1 数据采集层
数据采集的对象主要是传统数据库数据和日志数据。一般公司采用sqoop开源工具采集传统数据库数据,大公司会开发专门工具。例如,阿里的DataX和同步中心。
日志数据采集来源分为Web端和APP端。
在采集技术基础上,阿里巴巴用面向各个场景的埋点规范,来满足通用浏览、点击、特殊交互、APP事件、H5及APP里的H5和Native日志数据打通等多种业务场景。
2 数据计算层
数据只有被整合和计算,才能被用于洞察商业规律,挖掘潜在信息,从而实现大数据价值,达到赋予的商业和创造价值的目的。
在构建全域数据体系,应遵循统一、规范、可共享等特点,避免数据的冗余和重复建设,规避数据烟囱和不一致性,充分发挥大数据海量、多样性方面的优势。
从数据计算频率角度,数据仓库可分离线数据仓库和实时数据仓库。离线数据仓库主要是指传统的数据仓库概念&