数据中台的产生原因及概述

中台概念来源于阿里(提出"大中台,小前台"的概念),其产生的核心思想是“共享”和“复用”。

产生原因

随着企业业务的不断发展,公司内部积累了大量的业务数据,而企业缺乏治理这些数据资产的有效手段。

由于企业的业务系统众多,数据存储分散,大量的业务数据都分散在各个部门中,部门间信息不互通,数据不共享,仅仅在有业务需求的场景中才会产生部分的数据共享,难以对全局的数据实现挖掘分析。企业掌握的大量数据难以实现其真正的价值,在如今的大数据时代,各个业务部门的数据应当打通并结合外部数据实现整体的市场分析。

1、传统数仓的开发效率较低

在企业开发传统数仓的初期,由于项目经验匮乏,业务需求不稳定,项目变化较频繁,数据仓库的建设往往缺乏统一的规范要求,良好的主题域和分层的设计,烟囱式的开发较为主流,导致很多企业以往的业务系统是条块化建设的。以前期的淘宝和淘宝商城(天猫前身)为例,他们各自都有货源体系,但因条块化建设,阿里巴巴难以看到自己的数据全貌,也无法将数据打通,导致数据的利用效率极为低下。

在数据规模上升后,业务的复杂度也会上升一个台阶,企业内部各个部门间业务需求会有一定的重叠,由于业务数据的不互通,可能会导致多个部门间利用相同的数据,做相似的指标开发!大量的重复开发不仅浪费成本,还制约了效率的提升。

在传统数仓开发下,企业的数据共享也是一个难题,在以往的烟囱开发模式的制约下,部门间的表命名的规范可能不互通,此外,在部门协调过程中,开发表和使用表的人不一定会是同一人,面对上万张表,上百个字段,理解表含义,疏通表关系也不是一件容易的事情。如果没有一个好的数据管理系统,表开发者很有可能每天被多人打断工作去回答一些重复性的问题。每个表开发人员相当于一个知识库,新人或其他业务系统的人理解这些业务也会付出极大的精力。

2、数据规范不统一

首先是数据的复用性不高,在传统的数据孤岛的模式下,部门A和部门B各自维护一套数据仓库,对于有一定重复性的数据,他们可能会做重复的清洗,如果一张原始表被多个部门以相同的手法清洗,在明细表层面就会产生多个相同的表,抽取压力、维护难度及数据一致性要求都很高。

各个部门对于指标的定义也不一定相同,在数据开发过程中,也许会遇到,两个相同的指标,指标含义一致、数据来源一致,但是结果不一致,很有可能就是对于指标的理解不同导致的。

3、成本较高

大数据平台的业务数据量往往比较大,各个部门间数据不通还会导致存储浪费、数据重复加工、计算资源大量占用。以阿里巴巴为例,阿里巴巴在没使用数据中台之前,预估5年内服务器需求量会达到现有服务器量的100倍,而在发展数据中台后,需求下降了90%。

数据中台概述

有人可能会产生疑问,以上传统数仓的缺点就是因为数据孤岛现象严重,那么只要打通这些数据,做一个统一规范的数据仓库就好了,为什么还要做数据中台呢?

因为数据中台构建了一个完整的数据生态链,提供的也不仅仅只是一个数仓。

数据中台是一种思想,一种概念,连接了前台与后台,为前台提供支持,为后台分担压力。数据中台提供了数据集成、数据存储、数据计算、数据治理、数据服务等一系列功能。数据中台最早由阿里巴巴提出,是为了应对部门内繁多的业务需求以及高时效性而建立的。数据中台要求既要满足日常使用,还要满足双十一之类的高并发场景的业务处理。

在数据中台中,首先要实现数据资产化,以阿里云为例,阿里云三大体系保证了数据资产化顺利进行:

One Model:设计、开发、部署和使用上保障了数据口径的规范和统一,实现数据资产全链路管理,提供标准数据输出。譬如,针对UV这一相同的指标,在统一之前阿里内部竟然有10多种数据定义。据介绍,One Data数据公共层总共对30000多个数据指标进行了口径的规范和统一,梳理后缩减为3000余个。

One ID:打通了用户账号,可以在多终端识别同一用户。

One Service:统一的数据服务中间件,实现对外的数据服务。

在这里插入图片描述

统一数据中心中间件

在数据资产化过程中,阿里构建了一个统一数据中心中间件,用于建立一个系统化的数据资产,由以下三个节点构建成集团的公共数据中心。

垂直数据中心:负责从阿里旗下各个业务单元采集数据

公共数据中心:类似数据仓库,将所有数据按不同主题域(电商、文娱、营销、物流、金融等)分类管理

萃取数据中心:按照业务需求,将各主题域数据加工处理,建立起消费者、企业、内容、商品、位置五大数据体系

(像不像数仓的三层架构,不过这里是把各个业务数据整合后再分到各个数据体系下)

数据平台的架构

一个经典的数据平台应该是一整套对数据处理的方案,主导数据的采集直到数据的提供。

传统的数仓能做的只有产生每日的报表,作用偏向于为领导提供决策。而数据中台可以提供更多的服务,例如营销推荐、用户画像、风险评估等。

在传统数仓应用时,因为业务变更较快、部门业务不互通,每次出现新业务,都要在底层新建一个业务模型。而使用数据平台后,由于数据是已经分类整理好的,数据分析工作也已经在数据中台中做好了,我们不用重新建模,只要调用数据中台中已有的模型即可,一个模型可以被多个业务部门共享。

一个经典的数据中台的架构应该包含以下几个部分,数据中台对用户屏蔽掉了杂乱的数据来源,用户在使用数据中台时,只需要调用数据服务模块提供的API即可。经典的数据中台的架构分为五大部分:

数据采集:提供统一的数据获取接入方式,数据来源包括内部数据和外部数据,数据类型应支持结构化和非结构化数据采集。

数据存储:可以使用多种数据库混搭存储,当然,HDFS分布式文件系统是最常见的。

数据计算:一般传统的大数据平台已经具备数据计算能力,数据中台直接移植即可,包含离线计算(MapReduce、Spark)、实时流式处理(如Storm、Samza、Spark Streaming、Flink)等。基于大数据对机器学习算法模型的训练工具(如Mahout、Spark MLib、Caffe、Keras、TensorFlow)也可以归为数据计算工具的类别。

数据治理:对于数据资产管理,有以下几个方面

​ 数据标准管理:对公共术语、参考数据、数据编码、指标口径等制定和实施标准化。

​ 数据模型管理:对系统中核心的逻辑模型、物理模型、数据库表、字段、视图等进行统一管控、促进其规范化。

​ 元数据管理:管理所有业务系统元数据。

​ 数据质量管理:包括数据探查、对比、质量监控、SQL扫描和智能报警等。

​ 数据安全管理:设定数据的访问权限。

数据服务:可以使用SAAS方式直接对外提供服务,也可以以更小粒度如API、消息接口、文件接口、服务接口、SDK软件包等方式只提供组件能力或数据服务。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
完整版:https://download.csdn.net/download/qq_27595745/89522468 【课程大纲】 1-1 什么是java 1-2 认识java语言 1-3 java平台的体系结构 1-4 java SE环境安装和配置 2-1 java程序简介 2-2 计算机中的程序 2-3 java程序 2-4 java类库组织结构和文档 2-5 java虚拟机简介 2-6 java的垃圾回收器 2-7 java上机练习 3-1 java语言基础入门 3-2 数据的分类 3-3 标识符、关键字和常量 3-4 运算符 3-5 表达式 3-6 顺序结构和选择结构 3-7 循环语句 3-8 跳转语句 3-9 MyEclipse工具介绍 3-10 java基础知识章节练习 4-1 一维数组 4-2 数组应用 4-3 多维数组 4-4 排序算法 4-5 增强for循环 4-6 数组和排序算法章节练习 5-0 抽象和封装 5-1 面向过程的设计思想 5-2 面向对象的设计思想 5-3 抽象 5-4 封装 5-5 属性 5-6 方法的定义 5-7 this关键字 5-8 javaBean 5-9 包 package 5-10 抽象和封装章节练习 6-0 继承和多态 6-1 继承 6-2 object类 6-3 多态 6-4 访问修饰符 6-5 static修饰符 6-6 final修饰符 6-7 abstract修饰符 6-8 接口 6-9 继承和多态 章节练习 7-1 面向对象的分析与设计简介 7-2 对象模型建立 7-3 类之间的关系 7-4 软件的可维护与复用设计原则 7-5 面向对象的设计与分析 章节练习 8-1 内部类与包装器 8-2 对象包装器 8-3 装箱和拆箱 8-4 练习题 9-1 常用类介绍 9-2 StringBuffer和String Builder类 9-3 Rintime类的使用 9-4 日期类简介 9-5 java程序国际化的实现 9-6 Random类和Math类 9-7 枚举 9-8 练习题 10-1 java异常处理 10-2 认识异常 10-3 使用try和catch捕获异常 10-4 使用throw和throws引发异常 10-5 finally关键字 10-6 getMessage和printStackTrace方法 10-7 异常分类 10-8 自定义异常类 10-9 练习题 11-1 Java集合框架和泛型机制 11-2 Collection接口 11-3 Set接口实现类 11-4 List接口实现类 11-5 Map接口 11-6 Collections类 11-7 泛型概述 11-8 练习题 12-1 多线程 12-2 线程的生命周期 12-3 线程的调度和优先级 12-4 线程的同步 12-5 集合类的同步问题 12-6 用Timer类调度任务 12-7 练习题 13-1 Java IO 13-2 Java IO原理 13-3 流类的结构 13-4 文件流 13-5 缓冲流 13-6 转换流 13-7 数据流 13-8 打印流 13-9 对象流 13-10 随机存取文件流 13-11 zip文件流 13-12 练习题 14-1 图形用户界面设计 14-2 事件处理机制 14-3 AWT常用组件 14-4 swing简介 14-5 可视化开发swing组件 14-6 声音的播放和处理 14-7 2D图形的绘制 14-8 练习题 15-1 反射 15-2 使用Java反射机制 15-3 反射与动态代理 15-4 练习题 16-1 Java标注 16-2 JDK内置的基本标注类型 16-3 自定义标注类型 16-4 对标注进行标注 16-5 利用反射获取标注信息 16-6 练习题 17-1 顶目实战1-单机版五子棋游戏 17-2 总体设计 17-3 代码实现 17-4 程序的运行与发布 17-5 手动生成可执行JAR文件 17-6 练习题 18-1 Java数据库编程 18-2 JDBC类和接口 18-3 JDBC操作SQL 18-4 JDBC基本示例 18-5 JDBC应用示例 18-6 练习题 19-1 。。。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值