图书信息
书名 | 数据中台:让数据用起来 |
---|---|
作者 | 付登坡 江敏 任寅姿 孙少忆 等 |
出版社 | 机械工业出版社 |
该书主要介绍了数据中台建设的方法论,成体系地阐述了数据中台建设的条件、要求和方法,以及数据资产管理、运营的机制。
可能因为各个章节分别是由不同的作者完成的,内容冗余的比较多,读起来略显啰嗦。另外部分章节结构有的混乱,有明显水字数的嫌疑,但是整体上不影响作者主旨的表达。
在主要章节的最后,会有一篇“中台手记”,作者会结合当前章节内容,以故事的形式讲述数据中台建设的实践案例,对章节理论的理解也很有参考意义。
随着DT时代的到来,企业信息化建设开始出现诸多发展瓶颈和痛点。比如,烟囱式开发造成的数据孤岛、多云策略造成的数据互通困扰。因此,以阿里、华为等为首的国内顶级公司开始提出“数据中台”的概念。
作者指出,在当今时代背景下,谁能率先解决面向数字经济特征的全新数据价值观和方法论的问题,并在其指引下打造出平台级能力,谁就能真正意义上帮助企业把数据用起来。
1、数据中台:信息化的下一站
1.1 数据中台的3个核心认知
- 数据中台需要提升到企业下一代基础设施的高度,进行规模化投入
- 数据中台需要全新的数据价值观和方法论,并在其指引下形成平台级能力
- 数据中台围绕业务、数据、分析会衍生出全新人才素养要求,需要尽快启动人才储备
1.2 数据中台发展的3个阶段
- 第一阶段:数据中台探索
- 第二阶段:数据中台整合数据应用提升效率
- 数据多样连接能力
- 数据资产化的能力
- 数据服务化的能力
- 第三阶段:数据中台重构数据空间和业务空间
2、什么是数据中台
数据中台是一套机制,联通传统IT架构和各类数据,融合新老模式,整合孤岛数据,沉淀数据资产,快速形成数据服务能力,为企业经营决策、精细化运营提供支撑。
业务对数据服务的诉求不同,数据中台建设的呈现方式也不尽相同
2.1 数据中台需要具备的4个核心能力
- 汇聚整合
- 提纯加工
- 服务可视化
- 价值变现
2.2 数据中台VS业务中台
- 业务中台更多偏向于业务流程管控,将业务流程中共性的服务抽象出来,形成通用的服务能力。业务中台不直接面向终端用户,但可以极大提升构建面向终端用户的前台的速度和效率。
- 数据中台则是抽象数据能力的共性形成通用数据服务能力
- 业务中台与数据中台互相促进
- 现在还有业务中台、数据中台之分,但我们预测未来数据与业务会更紧密地结合,完全融为一体,会统一成“企业中台”。
2.3 数据中台 VS 数据仓库
- 数据仓库的主要场景是支持管理决策和业务分析
- 数据中台则是将数据服务化之后提供给业务系统
- 数据中台包含数据仓库
2.4 数据中台 VS 现有信息架构
- 数据中台与企业现有信息架构不存在竞争关系
- 数据中台是为了连接各信息体系的数据资产,把数据真正的用起来
- 数据中台需要IT系统不断提供数据
- IT系统也需要数据中台提供的综合数据特征来支撑功能
2.5 数据中台的业务价值
- 数据化运营,提供深层的客户洞察。标签管理、营销圈人、效果分析等
- 依托数据和算法,支持大规模商业模式创新
- 盘活全量数据,繁荣数据服务生态,构筑企业壁垒
2.6 数据中台的技术价值
- 快速应对多数据处理的需求
- 丰富标签数据,降低管理成本
- 跨域访问、快速复用,将数据由生成资料变成生成力
3、数据中台的建设与架构
数据中台的建设要从战略、认知、组织保障等更高的层面做规划,不能把数据中台简单看作一个项目或产品。
数据中台的核心是数据服务能力,不是单纯的技术叠加。
- 数据是企业的战略资产
3.1 数据中台建设方法论
数据中台建设方法论体系,需要从组织、保障、准则、内容、步骤5个层面全面考虑。
- 1种战略行动:把用数据中台驱动业务发展定位为企业级战略,全局谋划。
- 2项保障条件:通过宣导统一组织间的数据认知,通过流程加速组织变革。
- 3条目标准则:将数据的可见、可用、可运营3个核心准则始终贯穿于中台建设的全过程,保障建设在正确轨道上。
- 4套建设内容:通过技术体系、数据体系、服务体系、运营体系建设保证中台建设的全面性和可持续性。
- 5个关键步骤:通过理现状、立架构、建资产、用数据、做运营5个关键行动控制中台建设关键节点的质量。
3.2 数据中台架构
数据中台是位于底层存储计算平台与上层的数据应用之间的一整套体系。
通过数据中台的数据汇聚、数据开发模块建立企业数据资产。通过资产管理与治理、数据服务把数据资产变为数据服务能力,服务于企业业务。数据安全管理、数据运营体系保障数据中台可以长期健康、持续运转。
3.3 企业数据应用成熟度评估
- 通过企业数据对业务的支撑程度评估企业应用数据的能力
- 数据应用能力成熟度可总结为统计分析、决策支持、数据驱动、运营优化四个阶段。
- 数据应用能力成熟度越高,则代表数据对业务的支撑能力越强。
3.4 数据中台建设选择
不同行业的不同企业在不同的节点对数据中台的诉求不同。
具备以下特点的公司可以加速考虑建立数据中台
- 企业最好有一定的信息化基础,沉淀了数据
- 企业业务复杂,数据维度丰富,场景多
- 企业有数字化转型、精细化经营的需求
4、数据汇聚联通
4.1 数据采集、汇聚的方法和工具
- 线上行为采集
- 客户端埋点
- 服务端埋点
- 线下行为采集
- 线下行为数据主要通过一些硬件来采集,如Wi-Fi探针、摄像头、传感器。
- 互联网数据采集
- 网络爬虫
- 内部数据汇聚
- 从时效性和场景分为:离线和实时
- PS:在大规模数据场景下,一般不建议采用ETL方式,建议采用ELT的模式,以提升数据传输效率、保持数据原始性。
4.2 数据交换
- 数据源管理
- 关系型数据库:如Oracle、MySQL、SQL Server、Greenplum等。
- NoSQL存储:如HBase、Redis、Elasticsearch、Cassandra、MongoDB、Neo4J等
- 网络及MQ:如Kafka、HTTP等
- 文件系统:如HDFS、FTP、OSS、CSV、TXT、Excel等
- 大数据相关:如Hive、Impala、Kudu、MaxCompute、ADB、LibrA、ELK等
- 离线数据交换
- 前置稽核
- 数据转换
- 跨集群数据同步
- 全量同步
- 增量同步
- 实时数据交换
- 数据订阅服务
- 数据消费服务
4.3 数据存储的选择
- 选择存储时需要考虑以下几个方面:
- 数据规模
- 数据生成方式
- 数据应用方式
- 存储技术
- 分布式系统
- NoSQL数据库
- 云数据库
5、数据开发
数据开发是数据资产内容建设的主战场,是数据价值生产过程中的核心环节。
5.1 数据计算能力的4中类型
- 批计算
- 流计算
- 在线查询
- 常见的在线计算框架有Elasticsearch、Redis等,其主要应用场景是OLTP类的简单的增、删、改、查、全文检索等相关操作。
- 即席分析
- ROLAP:以关系数据库为核心,以关系型结构进行多维数据的表示和存储,结合星型模式和雪花模式实现。
- MOLAP:基于多维数据组织的实现,以多维数据组织为核心,形成“立方块”的结构,通过对“立方块”进行各类处理来产生多维数据报表。
5.2 离线开发
- 作业调度
- 基线控制
- 异构存储
- 代码校验
- 多环境级联
- 推荐依赖
- 数据权限
5.3 实时开发
- 实时计算三大特点
- 实时且无界的数据流
- 持续且高效的计算
- 流式且实时的数据集成
- 实时开发核心功能点
- 元数据管理
- SQL驱动式开发
- 鉴于SQL的普适性,流计算SQL化可以大大节省开发人员的工作量,提高开发效率。
- 组件化配置
5.4 算法开发
DT时代的数据具有高维稀疏特征,对算法处理提出了更高的要求。
- 可视化建模
- 拖曳式实验流
- 丰富算法组件
- 实验周期调度
- 告警通知
- 多角度协调
- Notebook建模
- JupyterLab在线编程
- 支持通过API方式调用标准算法组件
- 支持多语言
- 高可用
- 数据集管理
- 数据接入
- 数据标注
- 数据探查
- 核心算法组件
- 数据获取集存储
- 数据预处理
- 统计分析
- 机器学习
- 多算法框架
6、数据体系建设
数据中台中的数据并不是简单的堆积,而是要在全域原始数据的基础上,进行标准定义和分层建模,最终呈现为一套完整、规范、准确的数据体系。
-
中台数据体系应具备以下特征:
- 覆盖全域数据
- 结构层次清晰
- 数据准确一致
- 提升性能
- 降低成本
- 方便易用
-
数据分层及每一层的模型建设规范。
- 贴源数据层ODS(Operational Data Store,又称操作数据层)
- 统一数仓层DW(Data Warehouse)
- 标签数据层TDM(Tag Data Model)
- 应用数据层ADS(Application Data Store)
7、数据资产管理
对于数据的拥有者和管理者来说,通过对数据的合理管理和有效应用,能盘活并充分释放数据的巨大价值。
7.1 数据资产的定义
《数据资产管理实践白皮书4.0》将“数据资产”定义为:“由企业拥有或控制的,能够为企业带来未来经济利益的,以物理或者电子的方式记录的数据资源,如文件资料、电子数据等。”
7.2 数据资产管理现状和挑战
- 缺乏统一的数据视图
- 数据基础薄弱
- 数据应用不足
- 数据价值难估
- 缺乏安全的数据环境
- 数据管理浮于表面
7.3 数据资产管理的4个目标
- 可见
- 可懂
- 可用
- 可运营
7.4 在数据中台架构中的位置
- 介于数据开发和数据应用之间
7.5 数据治理
- 数据治理(Data Governance,DG)是指对数据资产管理行使权力和控制的活动集合(规划、监督和执行)。
- 从根本上说,数据治理的目标是保障数据资产的质量,促进数据资产的价值创造。
- 数据治理包含
- 数据标准管理
- 元数据管理
- 数据质量管理
- 数据安全管理
- 数据生命周期管理
- 数据治理的6个原则
- 标准化原则
- 透明原则
- 数据认同与问责
- 平衡原则
- 变更原则
- 持续改进原则
- 数据治理的理论体系
- 国际上比较有名、接受度较高的理论体系提出者
- DAMA(Data Management Association,国际数据管理协会)
- CMMI(Capability Maturity ModelIntegration,软件能力成熟度模型集成)研究所
- DGI(The DataGovernance Institute,国际数据治理研究所)
- IBM(InternationalBusiness Machines Corporation,国际商用机器公司)数据治理委员会
- Gartner(高德纳)公司
- 数据管理能力成熟度评估模型–DCMM(Data Management CapabilityMaturity Assessment Model)正在被越来越多的企业和政府所接受。
- 国际上比较有名、接受度较高的理论体系提出者
- 数据治理的3个发展趋势
- 1.从质量管理到质量与服务并重
- 2.人工智能大幅提升数据治理效率
- 3.以元数据为核心的分布式数据治理
7.6 数据资产管理职能
- 数据标准管理
- 数据模型管理
- 元数据管理
- 主数据管理
- 数据质量管理
- 数据安全管理
- 数据价值管理
- 数据共享管理
- 生命周期管理
- 标签管理
- 数据资产门户管理
7.7 数据资产管理效果评估
- 根据行业特点评估效果,以金融、政府部门、电信行业为例
- 金融机构监管力度大,对数据标准和数据质量的要求很高,适合自上而下开展大数据资产管理。
- 政府部门涉及很多民生相关的数据,通过打通不同政府部门之间的数据墙、业务墙,在海量数据中快速找到所需数据就显得至关重要。
- 电信行业数据量特别大,商业价值高,更重视数据资产是否被良好地组织和管理起来,以及是否实现了开放共享。
- 更加客户的不同诉求评估效果
- 评估模型
- 数据管理能力成熟度评估模型
- 看到实实在在的成果,取得客户和领导的肯定和认可
7.8 数据资产管理的7个成功要素
- 强有力的组织架构
- 清晰的数据战略
- 重视数据的企业文化
- 合理的制度与流程
- 标准与规范
- 成熟的软件平台
- 科学的项目实施
8、数据服务体系建设
数据服务体系就是把数据变为一种服务能力,通过数据服务让数据参与到业务之中,激活整个数据中台,这也是数据中台的价值所在。
数据服务是对数据进行计算逻辑的封装(过滤查询、多维分析和算法推理等计算逻辑),生成API服务,上层数据应用可以对接数据服务API,让数据快速应用到业务场景中。
- 数据服务可分为三类(三大核心能力)
- 基础数据服务
- 标签画像服务
- 算法模型服务
- 数据服务核心价值(四个核心价值)
- 确保数据在业务层的全域流通
- 降低数据接口的重复建设
- 保障数据获取的及时性和稳定高效
- 使数据能力扩展
- 数据服务背后的产品技术
- 多样数据服务
- 标签服务化
- 自定义SQL服务化
- 算法模型服务化
- 注册API服务化
- 全生命周期管理
- 服务的创建部署
- 服务的授权赋能
- 服务的运行监控
- 服务的更新升级
- 服务的到期下架
- 服务安全控制
- 鉴权机制
- 黑白名单
- 审批申请
- 多版本管理
- 升级、回滚
- 多版本支撑过度
- 蓝绿部署、灰度验证
- 审计与计量计费
- 多样数据服务
9、数据中台运营机制
9.1 数据中台运营效果评估模型
- 数据安全和质量是中台可持续运营的基础
- 提效降本是打造中台影响力的关键
9.2 数据中台运营的4个价值切入点
- 统一战略
- 搭建组织
- 打造氛围
- 实践创新
9.3 数据资产运营
- 数据资产运营的4个目标
- 可阅读
- 易理解
- 好使用
- 优价值
- 数据资产运营的完整链路
- 看、选、用、治、评
- 数据资产运营执行的5个动作
- 组织等级
- 宣传推广
- 服务保障
- 治理优化
- 价值评估
9.4 数据成本运营
- 通过细分数据类型,优化数据资产存储成本
- 四种关键优化策略,破解计算成本控制难题
- 作者列举了影响计算成本的因素,却没有总结所谓的“四个关键优化策略”,看来这里也是在水字数(lll¬ω¬)
- 数据中台成本台账监管
9.5 数据中台运营的实践经验
9.6 数据中台运营的要素与口诀
- 战略层面要重视,组织架构打扎实
- 数据氛围造起来,内部典型须周知
- 安全意识不放松,成本账单详追踪
- 质量规范严落地,中台运营必成功
10、数据安全管理
数据安全管理既是数据资产管理中不可或缺的一部分,又是信息安全管理的重要组成部分。
10.1 数据安全面临的挑战
- 数据安全问题带来的四大损害
- 个人安全
- 组织安全
- 公共安全、公共利益、公共秩序
- 国家主权、安全、发展利益
- 法律和政策背景
- 根据《中华人民共和国网络安全法》起草了《数据安全管理办法(征求意见稿)》
- 《联邦信息安全管理法案》《加强网络安全法》《公共网络安全法》《加强计算机安全法》
- 欧盟GDPR(General Data Protection Regulation,通用数据保护条例)于2018年5月25日正式生效
- 数据安全的4大技术挑战
- 平台安全
- 服务安全
- 数据本身的安全
- APT攻击防御
- 数据安全的3大市场挑战
- 企业内部挑战
- 对大数据服务商的挑战
- 数据确权问题
10.2 数据安全管理体系
整体的数据安全管理体系通过分层建设、分级防护,利用平台能力及应用的可成长、可扩充性,创造面向数据的安全管理体系系统框架,形成完整的数据安全管理体系。
10.3 大数据平台安全管理技术手段
- 统一安全认证和权限管理
- 资源隔离
- 数据加密
- 数据脱敏
- 数据共享安全
- 数据的容灾备份
- 数据安全的其他技术