【数据架构】大型集团公司数据架构总体设计方案(WORD)

原文《大型集团公司数据架构总体设计方案》WORD格式,主要从数据架构总体定位设计目标、数据分布、数据存储、数据流转、数据模型、数据管控等进行建设。

来源网络公开渠道,旨在交流学习,如有侵权联系速删,更多参考公众号:优享智库

数据架构总体概述

总体定位

数据架构是XX集团财务集中管控平台设计项目的重要组成部分,数据是共享中心系统的重要资源,在系统设计时,首先要考虑数据架构对当前业务的支持,基于业务需求,定义出业务架构,围绕业务架构来分析及定义数据架构;然后根据数据架构结合业务功能定义应用架构,最后基于数据架构与应用架构的定义,来设计技术架构。

数据架构设计具体定位如下:

  1. 数据架构位于应用架构和技术架构之间,起到承上启下的作用。
  2. 应用架构的输出,是数据架构重要、核心的输入;数据架构规划是应用架构落地过程中的重要支撑。
  3. 数据架构中数据逻辑分布尽量遵从于业务架构和应用分布 。
  4. 数据架构中的数据物理存储是从技术视角看逻辑分布,结合数据库技术、灾备等,给出相应的数据存储规划方案。
  5. 数据物理分布中的技术发展可能带来数据逻辑分布的优化,从而促进应用架构的完善和改进。

设计目标

数据架构从跨企业应用系统的视角统一对数据进行组织和规划,提高跨系统间数据存贮和共享的效率;从企业数据资产管理的角度,制定整个数据生命周期中数据的采集、存储、移动和访问环节中的策略、模型、流程。

数据架构的设计目标是建立统一和共享的数据视图,满足XX集团对数据统一性、标准性和扩展性的需求,从而实现业务支撑、协同交互、共享高效三个主要目标。

  • 业务支撑,应满足财务集中管控平台现有业务的需求,支撑各类型数据的有效管理和快速检索的需要,为XX集团经营活动提供有力的数据支持和经营决策保障
  • 协同交互:架构设计弹性灵活,满足财务集中管控平台对数据统一性、标准性和扩展性的需求,提升协同交互能力
  • 共享高效:从跨企业应用系统的视角统一对数据进行组织和规划,设计流转方式,提高跨业务间数据存贮和共享的效率

数据分布

数据分类

按照数据存储结构可将数据分为两大类:结构化数据、非结构化数据。结构化数据主要包括应用系统直接产生的数据,即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据,包括:业务数据、基础库数据等。非结构化数据是指不方便用数据库二维逻辑表来表现的数据,主要包括:音频、视频、日志与图像文件等。

XX集团财务集中管控平台由于其应用功能固有特点,将产生大量的文本、扫描图片等非结构化、半结构化的数据,对这类数据的采集、存储、检索、分发、分析等管理提出了很高的要求。因此,非结构化数据分区将对一手采集到的非结构化数据进行转储,预分析处理,数据中心集中存档备份。重点在于平衡数据存储成本效率与计算处理效率,配合结构化数据的分析,提供分析应用场景下的非结构化数据支持。

根据数据分类原则,XX集团财务集中管控平台的数据划分为两个层级,

第一层为:结构化数据、非结构化数据。

第二层为:结构化数据划分业务数据、基础数据,其中业务数据包括明细事务数据、流程数据、分析数据。虽然流程数据从数据含义上属于业务数据范畴,但流程数据与业务数据存在格式及处理差异;基础数据划分为主数据、元数据、维度数据。非结构化数据划分为文件数据、图片数据,具体如下图所示:

详细数据分类如下表所示:

一级分类

二级分类

三级分类

数据分类描述

结构化

数据

基础数据

主数据

企业核心的业务共享数据,如财务组织、往来单位、会计科目、银行账号、供应商等

元数据

描述数据的数据,分为业务描述、技术描述、管理描述三类元数据,具体包括数据源映射信息、数据校验信息、数据节点血缘关系、业务数据字典、ETL监控日志信息

维度数据

统一的数据编码及名称,用于统一分析口径,如地区、单位、发电类型等

业务数据

事务数据

涵盖XX集团财务集中管控平台所涉及的业务应用系统业务明细数据,是数据分析的最基础来源数据

流程数据

流程绩效数据

分析数据

基于XX集团财务集中管控平台业务分析要求,构建专题分析模型,形成各类专题业务分析数据;同时也包括分析主题下对应的指标汇总数据。指标数据包括基于抽取的明细数据新计算的指标,也包括从各业务系统直接抽取的指标。

非结构化数据

文件

财务集中管控平台所需的会计档案、财务公文、合同等,也包含用于财务集中管控平台所需的专题文档、资料、制度、规章等

图片

财务集中管控平台集中存储的各类扫描图片信息,如财务凭证、报销单据、采购合同、销售合同、投资合同等

数据分布视图

数据分布设计概述

数据分布与流转设计用来描述数据在XX集团财务集中管控平台各数据区域之间的流向轨迹,反映数据在整个生命周期过程中的变化过程情况。通过数据分布梳理,理清共享中心的“数据家底”,指导数据存储架构设计,为深化应用及决策支持提供数据支撑。

数据分布设计需遵循如下原则:

  1. 操作数据与查询数据分离,减少生产系统压力
  2. 生产数据与分析数据按不同的数据组织方式分离
  3. 体现数据的生命周期管理需求:数据的产生、数据的采集、数据的加工,数据的利用和数据的归档几个阶段

数据分布逻辑视图

XX集团财务集中管控平台的数据分布逻辑视图,体现出数据在共享中心内部划分类别,每类数据逻辑区域包括什么样的数据,用于指导后续数据存储视图的设计。

根据数据分类,结合业务需求,XX集团财务集中管控平台数据分布分为两层:

第一层为数据来源,主要由XX集团核心的集中部署与分布式部署的业务系统产生,这些业务系统为共享中心提供初始数据来源;

第二层为共享中心内部数据分布,基于业务需求,主要划分为五大数据逻辑分布视图,分别是流程数据、数据仓库、数据集市、公共基础数据、非结构化数据。其中数据仓库分为明细事务数据、轻度汇总事务数据;数据集市分为专题分析数据、指标多维数据;公共基础数据分为主数据、元数据、维度数据。整体数据分布逻辑视图如下图所示:

数据存储

数据存储关注点

  • 需考虑与数据分布视图一一对应,完全满足数据存储需要
  • 保障共享中心业务的访问效率,满足高并发性
  • 考虑数据查询及分析效率
  • 在数据共享和交换时,如何保证业务的连续性
  • 如何解决决策分析和其他业务的数据获取、使用的问题
  • 与数据模型、数据标准的关系,支持度如何

数据存储视图

依据XX集团财务集中管控平台的数据分类,结合各应用功能要求及数据仓库建设情况,基于数据逻辑分布视图,对财务集中管控平台的数据存储进行统一设计。具体内容需包括数据存储区域、数据存储主题,详细结构如下图:

数据流转

数据流转视图

数据分布与流转设计用来描述数据在财务集中管控平台信息不同数据存储区域之间的流向轨迹,反映数据在整个生命周期过程中的变化过程情况,数据的流转主要涉及到数据提供方及数据使用方。

数据提供方:是指数据的产生系统或者是向外输出数据的系统,它负责对数据的创建和解释,包括数据存储信息、数据质量等。

数据使用方:是数据的使用系统,它们只是从数据提供方那里取得数据,用于业务应用或其他用途,不需要对数据进行创建和解释,不负责数据的质量、标准等方面内容。

数据流转方式及流转内容如下表所示:

源存储区

目标

存储区

流转方式

流转信息

应用场景

业务系统

明细事务数据

ETL / CDC

预算信息、付款计划、应收账款、应付账款、付款计划、总账信息、合同信息、产权信息、成本要素…

ETL:业务系统历史数据初始化至ODS中

CDC:业务系统增量数据捕获

明细事务数据

轻度汇总事务数据

ETL

资产、预算、成本、总账、资金、应收应付、合同、税务…

利用元数据管理,将业务所需的轻度汇总结果数据抽取转换至DW中

数据仓库

数据集市

ETL

资金分析、借款分析、费用分析、资产分析、费用分析、盈利能力分析、指标多维分析…

将前端分析及展示数据加载至DM的数据分析模型中

业务系统

主数据

ESB

会计科目、财务组织、往来单位

将主数据平台统一管理的主数据分发至各业务系统中

主数据

业务系统

ESB

银行账号

将业务系统中维护的标准主数据传递至主数据管理平台中

主数据流转模式

主数据流转模式通常分为两种,一种是集中模式,一种是共存模式。

(一)主数据流转集中模式适用于在完成企业主数据的统一数据模型、统一数据内容、统一数据存储的基础上,开展集中模式的建设。

主数据集中模式流转过程如下图所示:

特点:

  • 主数据信息物理上仅存放在主数据管理平台中
  • 各业务系统通过主数据管理平台访问主数据信息
  • 所有关于主数据的维护、更新、审批、发布操作都在唯一主数据管理平台上进行
  • 不需要进行同步工作,不存在一致性问题

优势:

  • 主数据统一数据模型、统一数据内容、统一数据存储,提升了企业数据资产的标准性、一致性
  • 主数据的维护和更新都在主数据管理平台上进行,减少了维护成本
  • 由于不需要进行同步,故主数据不会产生由时差引起的不同步问题

劣势:

  • 对于现有各业务系统改造工作量很大
  • 所有业务均基于主数据管理平台,耦合性较高

(二)主数据流转共存模式适用于企业尚未统一管理,并且紧迫程度要求高的主数据。

主数据共存模式流转过程如下图所示:

特点:

  • 主数据物理存放在主数据管理平台与业务系统中,起源于业务系统,通过同步实现主数据平台数据更新
  • 各业务系统进行业务处理时,访问物理存储在本系统中的主数据
  • 主数据管理平台与业务系统进行同步时,需要通过两者之间的映射规则进行匹对

优势:

  • 主数据分别存储在管理平台与业务系统中,系统响应性能有较好的保障
  • 对现有业务系统影响较小
  • 降低了因为一方出现问题而导致另一方无法使用的风险

劣势:

  • 需要额外增加存储成本
  • 存在主数据管理平台与业务系统、业务系统与业务系统之间的主数据不一致问题

数据模型

模型设计思路

数据模型是指用实体、属性及其关系对企业运营和管理过程中涉及的所有业务概念和逻辑规则进行统一定义、命名和编码。数据模型是业务人员、IT人员和开发商之间进行沟通的一套语言。

概念模型、逻辑模型、物理模型在设计过程中的主要关注点如下:

概念数据模型是高阶的数据模型,主要展现数据主题之下的数据实体,并展现数据实体之间的关联关系。

逻辑数据模型是对数据实体的分解细化成为逻辑实体 ,对数据实体的属性、属性类型、长度和主外键关系等做了定义,遵从“第三范式”以达到最小的数据冗余。

物理数据模型是结合数据存储的物理实现,定义物理实体,描述数据模型的细节,需要考虑所使用的数据库产品、对应的字段类型、长度、索引等因素,并对数据冗余与性能进行平衡。

模型设计规范

表名命名规范

  1. 数据库表的命名以是名词的复数形式且都为小写,如cities, categories, friends等等
  2. 如果表名由几个单词组成,则单词间用下划线(“_”)分割,如subscribed_pois,poi_categories等
  3. 表名尽量用全名
  4. 表名限制在30个字符内。当表的全名超过30字符时,可用缩写来减少表名的长度,如description –> desc;information –> info;address –> addr等

表字段命名规范

  1. 字段名为小写
  2. 字段名为有意义的单词,或单词的缩写
  3. 如果字段由几个单词组成,则单词间用下划线(“_”)分割,如client_id,post_code等
  4. 字段名限制在30个字符内。当字段名超过30字符时,可用缩写来减少字段名的长度,如description –> desc;information –> info;address –> addr等

索引命名规范

  1. 索引须按照IDX_table_<column>_<column>,其中<table>是建立索引的表名,<column>是建立索引的字段名
  2. 索引名限制在30个字符内。当索引名超过30字符时,可用缩写来减少索引名的长度,如description –> desc;information –> info;address –> addr等

主键、外键命名规范

  1. 主键按照PK_<table>的规则命名,其中<table>为数据库表名
  2. 唯一键按照UK_<table>_<column>的规则命名,其中<table>为数据块表名,<column>为字段名
  3. 外键按照FK_<pppp>_<cccc>_<nn>的规则命名,其中<pppp>为父表名,<cccc>为子表名,<nn>为序列号

视图命名规范

1. 视图以V作为前缀+有含义的命名(基本表)

命名规则和表的命名类似; 例 Vi_Customer

2. 命名应尽量体现各视图的功能。

存储过程命名规范

存储过程应以'UP_'开头,和系统的存储过程区分,后续部分主要以动宾形式构成,并用下划线分割各个组成部分。不要使用 sp_ 前缀,sp_ 在很多数据库系统中表示系统存储过程。

触发器命名规范

基本方法:tr_+表名+功能特性含义。触发器以TR作为前缀,触发器名为相应的表名加上后缀。

功能特性含义:Insert触发器加"_I",Delete触发器加"_D",Update触发器加"_U",如:TR_Customer_I,TR_Customer_D,TR_Customer_U。

其他约束规范

  1. 表不应该有重复的值或者列。
  2. 表中记录应该有一个唯一的标识符。
  3. 数据库对象要有统一的前缀名。
  4. 尽量只存储单一实体类型的数据。
  5. 尽量符合数据库设计范式。
  6. 所有字段在设计时,除以下数据类型timestamp、image、datetime、smalldatetime、uniqueidentifier、 binary、sql_variant、binary 、varbinary外,必须有默认值。字符型的默认值为一个空字符值串’’;数值型的默认值为数值0;逻辑型的默认值为数值0;其中:系统中所有逻辑型中数值0表示为“假”;数值1表示为“真”。datetime、smalldatetime类型的字段没有默认值,必须为NULL。当字段定义为字符串形时建议使用varchar而不用nvarchar。

数据管控

数据管控描述企业如何管理数据资产,保证数据准确性、一致性、完整性、可用性和安全性。数据管控体系是为了规范数据标准、提高数据质量和保证数据安全而建立的组织、流程、工具和评价考核体系。

数据管控体系

随着XX集团信息化建设的发展,数据量不断积累,数据逐渐飙升为XX集团信息化的重要资产,为XX集团带来直接或间接经济效益,优质的信息资源成为XX集团的核心竞争力。加强数据管控机制,会涉及XX集团多个信息系统和平台的更新与迭代,将会对XX集团现有的信息系统和数据结构产生深层次和长时间的影响。

数据管控体系是为了规范数据标准、数据质量和数据安全中的各类管理任务和活动而建立的组织、流程与工具。通过一个常态化的数据管控组织,建立数据集中管理长效机制,规范数据管控流程,提升数据质量,促进数据标准一致,保障数据共享与使用安全,从而提高企业运营效率和管理水平,增强企业竞争力。因此,数据管控在数据管理体系中发挥着重要的支撑作用。

针对XX集团共享中心系统的业务与数据现状分析,以提升数据质量、促进数据标准一致、保障数据共享为目标,设计出符合XX集团的数据管控体系框架。通过组织、流程、考核评价、工具四大域的构建,将数据录入、数据加工、数据流转、数据共享与使用四个阶段纳入规范管理,从而推进XX集团数据标准一致,提高数据共享能力、提高数据质量和保障使用安全。

数据标准管理

数据标准是描述数据产生的法则和规范,通过数据标准可以实现数据的规范化定义、存储、交换、应用及共享。因此,数据标准可以理解为“一种协议、一种规范”,通过这种协议实现数据规范定义、业务融合贯通。有了数据标准才可以产生标准数据,有了标准数据则可进行有效、有价值的数据分析和应用。

具体需要进行标准化的数据项为主数据、维度数据和指标数据,其中交易数据属于各业务条线和应用系统的专属数据,并不具有统一性和共享性等特性,不适合做作为进行统一标准数据形成于企业层面。故主数据、维度数据和指标数据的定义、识别方法和举例具体如下表详述。

数据标准项分类

基本定义

识别方法

具体示例

主数据

主数据是企业核心业务实体数据,是描述整体业务信息的对象和分类,通常跨业务跨部门频繁使用。

从基础性、共享性、唯一性、业务优先级、跨部门使用、使用频率、变动频率、数据周期几方面判断主数据。

如:人员(客户、员工、供应商等)、事务(设备、物料等)、场所(位置等)等。

维度数据

维度数据用于将数据进行分类或目录整编的数据。

维度数据通常有有限个值域,每种值域表示一种唯一且不重复的分类。

如:地区、订单类型、采购类型、发电类型等。

指标数据

指标是反映某种业务总体综合数量特征的范畴及其具体数值,通常以量、值、率等字样体现。

指标,即度量。用于评价业务状况的数值性数据

如:营业收入、用工总量、固定资产净值、设备综合利用率等。

数据质量管理

数据质量管理的目标是,适度改进数据质量,满足既定的业务预期;定义需求和规则说明,将数据质量控制整合至系统开发生命周;为度量、监控和报告数据质量水平的一致性提供既定的操作程序。

数据质量管理是以对各业务部门数据的质量要求出发,制定一套可管理的数据质量评价方法和评价指标,将质量管理落实到数据整个加工处理过程中,保证满足业务对数据在完整性、及时性、准确性、一致性等方面的质量要求。

数据质量管理是一个持续的过程,为满足业务需求的数据质量标准制定规格参数,并且保障数据质量能够满足这些标准,数据质量管理包括数据质量分析、识别数据异常和定义业务需求及相关业务规则,还包括在必要的时候对已定义的数据质量规则进行合规性检查和监控的流程,以及数据解析、标准化、清洗和整合、最后,数据质量管理内容还包括问题跟踪从而对已定义的数据质量服务水平协议的合规性进行监控。

数据质量管理的设计内容主要包括:

  • 建立并实施数据质量不断改进、数据使用价值不断提升的管理机制;
  • 制定并公布数据质量管理策略,满足业务管理和业务分析对数据质量的需求;
  • 针对数据质量管理的目标,并参照数据标准管理的成果,制定数据质量管理方法;
  • 执行数据质量管理流程,推进数据质量管理在组织内的逐步实施;
  • 建立数据质量评价考核机制,完善质量管理在组织内的激励机制,促进建立全面质量全面管理的组织文化。

数据安全管理

数据安全管理的目标是基于数据安全分级标准和数据使用者的工作职责权限制定的数据使用授权流程,以保证数据安全性和合规性

  • 制定和维护数据安全策略:根据现有法律法规、国际标准、行业标准以及XX信息安全策略,制定数据安全相关的标准、规范和操作流程。数据安全策略需要定期复核、维护和更新。
  • 数据安全分级:数据认责人对数据安全负责,定义和维护数据的安全等级,并进行标识。
  • 数据访问安全控制:定义用户安全等级,识别访问需求,并制定相关的审批管理流程,在从数据应用的规划到最终用户的数据访问过程中进行安全控制。

数据安全评估和考核:对数据安全管理工作进行评价,识别数据安全各个方面的风险和差距,促进有效的数据安全管控。

  • 14
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数字化建设方案

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值