第8章 数据集成和互操作知识点梳理

第8章 数据集成和互操作知识点梳理(附带页码)


◼ 数据集成和互操作(DII)描述了数据在不同数据存储、应用程序和组织这三者内部和之间进行移动和整合的相关过程。数据集成是将数据整合成物理的或虚拟的一致格式。数据互操作是多个系统之间进行通信的能力。P203

◼ 数据集成和互操作提供组织所依赖的基本数据管理职能
1)数据迁移和转换。
2)数据整合到数据中心或数据集市。
3)将供应商的软件包集成到组织的应用系统框架中。
4)在不同应用程序或组织之间数据共享。
5)跨数据存储库和数据中心分发数据。
6)数据归档。
7)数据接口管理。
8)获取和接收外部数据。
9)结构化和非结构化数据集成。
10)提供运营智能化和管理决策支持。P203
在这里插入图片描述
◼ 数据集成和互操作依赖于数据管理的其他领域,如:
1)数据治理。用于治理转换规则和消息结构。
2)数据架构。用于解决方案设计。
3)数据安全。无论数据是持久化、虚拟化还是在应用程序和组织之间流动,都要确保解决方案对数据的安全性进行适当的保护。
4)元数据。用于知晓数据的技术清单(持久的、虚拟的和动态的)、数据的业务含义、数据转换的业务规则、数据操作历史和数据血缘。
5)数据存储和操作。管理解决方案的物理实例化。
6)数据建模和设计。用于设计数据结构,包括数据库中的物理持久化的结构、虚拟的数据结构以及应用程序和组织之间传送的消息结构。P203-204

◼ 业务驱动因素。数据集成和互操作是新兴大数据管理领域的核心,主要目的是为了对数据移动是进行有效管理。主要责任就是管理数据在组织内部的存储库与其他组织之间的双向流动过程。
(1)管理数据集成的复杂性以及相关成本是建立数据集成架构的原因。
(2)维护管理成本。
(3)支持组织遵守数据处理标准和规则的能力也是驱动因素之一。P204

◼ 目标
1)及时以数据消费者(人和系统)所需的格式提供数据。
2)将数据物理地或虚拟地合并到数据中心。
3)通过开发共享模型和接口来降低管理解决方案的成本和复杂度。
4)识别有意义的事件(机会和威胁),自动触发警报并采取相应行动。
5)支持商务智能、数据分析、主数据管理以及运营效率的提升。P205

◼ 原则
1)采用企业视角确保未来的可扩展性设计,通过迭代和增量交付实现。
2)平衡本地数据需求与企业数据需求,包括支撑与维护。
3)确保数据集成和互操作设计和活动的可靠性。业务专家应参与数据转换规则的设计和修改,包括持久性和虚拟性。P205-206

◼ 活动
1.规划和分析。(1)定义数据集成和生命周期需求。(2)执行数据发现。(3)记录数据血缘。(4)剖析数据。(5)收集业务规则。
2.设计数据集成方案。(1)设计解决方案组件。(2)建模数据中心接口数据服务。(3)映射数据到目标。(4)设计数据编排。
3.开发数据集成解决方案。(1)开发数据服务。(2)开发数据流编排。(3)制定数据迁移方法(4)开发复杂事件处理流(5)维护 DII 元数据。4.实施和监测。P205 图

◼ 数据集成和互操作的核心是抽取、转换和加载(ETL)这一基本过程。抽取:包括选择所需的数据并从其源数据中提取。转换:让选定的数据与目标数据库的结构相兼容。格式变化。结构变成。语义转换。消除重复。重新排序。加载:在目标系统中物理存储或呈现转换结果。如果目标系统比源系统或中间应用系统具有更强的转换能力,那么数据处理的顺序可以切换为 ELT——抽取、加载、转换。映射:是从源结构到目标结构 建立 查找矩阵的过程,也是该过程的结果。P206

◼ 时延(Latency):指从源系统生成数据到目标系统可用该数据的时间差。延迟可以是很高(批处理)或较高(事件驱动),甚至是非常低(实时同步)。类型:批处理。变更数据捕获。准实时和事件驱动。异步。实时,同步。低延迟或流处理。P208-210

◼ 变更数据捕获技术:通过增加过滤来减少传送带宽需求的方法,只包含在特定时间范围内更新过的数据。
1)源系统填入特定的数据元素。
2)源系统进程在更改数据时被添加到一个简单的对象和标识符列表,然后用于控制抽取数据的选择。
3)源系统复制已变化的数据。P208

◼ 企业消息格式/规范格式。通用模型,用于标准化数据共享的格式。P211

◼ 交互模型
1 点对点(影响处理。接口。潜在的不一致。)
2 中心要辐射型。
3 发布与订阅。P211

◼ 企业应用集成模型(Enterprise Application Integration,EAI)中,软件模块之间仅通过定义良好的接口调用(应用程序编程接口-API)进行交互。数据存储只能通过自己的软件模块更新,其他软件不能直接访问应用程序中的数据,只能通过定义的 API 访问。企业应用集成是基于面向对象的概念,它强调重用和替换任何模块而不影响任何其他模块的能力。企业服务总线(Enterprise Service Bus,ESB)是一个系统,它充当系统之间的中介,在它们之间传送消息。应用程序可以通过 ESB 现有的功能封装发送和接收的消息或文件。作为一个松散耦合的例子,ESB 充当两个应用程序之间的服务角色。面向服务的架构 SOA:通这在应用程序之间定义好的服务调用,可以提供推送数据或更新数据。SOA 的目标是在独立的软件模块之间定义良好的交互。数据服务可以包括数据的添加、删除、更新和检索,这些服务被指定在可用服务的目录中。SOA 可以通过Web 服务、消息传送、RESTful API 等多种技术来实现。P214-215

◼ 【活动 1-1】规划和分析-定义数据集成和生命周期需求。理解组织的业务目标及为实现这些目标而需要的数据和建议的技术方案。由业务分析师、数据管理专员和具有各种职能架构师定义。过程创建并发现元数据,有利于管理数据成风险和成本。P216

◼ 【活动 1-2】规划和分析-执行数据探索。为数据集成工作确定潜在的数据来源,还针对 数据质量进行高级别的评估,以确定数据是否集成。数据探索会生成完善组织的数据目录。需要做好集成内外部数据的规划。P216

◼ 【活动 1-3】规划和分析-记录数据血缘。揭示数据在组织中如何流动。血缘分析可能会识别使用的系统所需的更新,分析过程还可以提供改进现有数据流的机会。P216

◼ 【活动 1-4】规划和分析-剖析数据。理解数据内容和结构是实现数据集成功的关键。基本剖析包括:
1)数据结构中定义的数据格式和从实际数据中推断出来的格式。
2)数据的数量,包括 null值、空或默认数据的级别。
3)数据值以及它们与定义的有效值集合的紧密联系。
4)数据集内部的模式和关系,如相关字段和基数规则。(内部关联)
5)与其他数据集的关系(数据集之间的关联)。P217

◼ 【活动 1-5】规划和分析-收集业务规则。收集业务规则也称为规则获取、业务规则挖掘。业务规则是需求的一个关键子集,是定义或约束业务处理方面的语句。业务规则旨在维护业务结构、控制或影响业务的行为。业务规则分为四类:业务术语定义、相互关联的术语的事实、约束或行为断言以及派生。实现数据集成和互操作需要业务规则的支撑内容:
1)评估潜在的源数据集和目标数据集的数据。
2)管理组织中的数据流。
3)监控组织中的操作数据。
4)指示何时自动触发事件和警报。业务规则 :匹配规则、合并规则、存活规则、信任规则。P217-218

◼ 【活动 2-1】设计方案-设计数据集成解决方案:在企业和单个解决方案两个层面统筹考虑。尽可能重现有方案和组件。解决方案体系结构表示将要使用的技术,它将包括所涉及数据结构的清单(持久和可传递、现有和必需)、数据流的编排和频率指示、法规、安全问题和补救措施以及有关备份和恢复、可用性和数据存档和保留。步骤:
(1)设计交互模型。
(2)设计数据服务交换模式。P218

◼ 【活动 2-2】设计方案-建模数据中心、接口、消息、数据服务。数据持久化的数据结构,如主数据管理中心、数据仓库、数据集市、操作型数据存储库等。P218

◼ 【活动 2-3】设计方案-映射数据源到目标。映射规范
1)指明源数据和目标数据的技术格式。
2)指定源数据和目标数据之间所有中间暂存点所需的转换。
3)描述最终或中间目标数据存储区中每个属性的填充方式。
4)描述是否需要对数据值进行转换,如通过在表示适当目标值的表中查找源值。
5)描述需要进行哪些计算。P218-219

◼ 【活动 2-4】设计方案-设计数据编排。从开始到结束的数据流模式,包括完成转换和/或事务所需的所有中间步骤。设定数据移动和转换的频率。P219

◼ 【活动 3-1】开发方案-开发数据服务。使用一致的工具或标准的供应商套件。P219

◼ 【活动 3-2】开发方案-开发数据流编排。开发实时数据成流涉及监控事件。可能包括开发数据存储之间的映射或协调点,涉及监控事件。P219

◼ 【活动 3-2】开发方案-制定数据迁移方法。不是一次性的过程,常被低估或缺乏充分的设计。P220

◼ 【活动 3-2】开发方案-制定发布方式。最佳实践是为组织中的各种数据类型确定一个通用的消息定义(规范格式),并让具有适当访问权限的数据使用者(应用程序或个人)订阅接收有关数据更改的通知。P220

◼ 【活动 3-2】开发方案-开发复杂事件处理流。需要做的工作:
1)准备有关预测模型的个人、组织、产品或市场和迁移前的历史数据。
2)处理实时数据流,充分填充预测模型、识别有意义的事件(机会或威胁)。
3)根据预测执行触发的动作。P220

◼ 【活动 3-2】开发方案-维护数据集成和互操作的元数据。元数据应经过业务和技术利益相关方的审核和批准过程。P220

◼ 【活动 4】实施和监测。建立度量指标和反馈问题的机制。必须进行苛刻的监视和服务。P221

◼ 工具
1、数据转换引擎/ETL 工具。
2、数据虚拟化服务器。
3、企业服务总线 ESB。
4、业务规则引擎。
5、数据和流程建模工具。
6、数据剖析工具。
7、元数据存储库。P221-222

◼ 就绪评估/风险评估:必须基于深入的业务来开发数据集成解决方案。方案要保持在关注业务和需求上。要有足够权威级别的团队来企业数据集成的实施,通过正面激励措施来鼓励,通过负面的管控措施来否决。P224

◼ 数据消息、数据模型和数据转换规则设计的决策,直接影响到组织使用数据的能力。这些决策必须由商业因素驱动。【P224-225:业务驱动,技术支撑,不要喧宾夺主!!!】

◼ 度量指标
1)数据可用性。请求数据的可获得性。
2)数据量和速度。它包括:传送和转换的数据量,分析数据量,传送速度,数据更新与可用性之间的时延,事件与触发动作之间的时延,新数据源的可用时间。
3)解决方案成本和复杂度。它包括:解决方案开发和管理成本,获取新数据的便利性,解决方案和运营的复杂度,使用数据集成解决方案的系统数量。P226


第1章 数据管理
第2章 数据处理伦理
第3章 数据治理
第4章 数据架构
第5章 数据建模和设计
第6章 数据存储和操作
第7章 数据安全
第8章 数据集成和互操作
第9章 文件和内容管理
第10章 参考数据和主数据
第11章 数据仓库和数据智能
第12章 元数据管理
第13章 数据质量
第14章 大数据与数据科学
第15章 数据管理成熟度评估
第16章 数据管理组织与角色期望
第17章 数据管理和组织变革管理

  • 20
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鱼与渔yuyuyu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值