数据集成

数据集成技术用于解决信息孤岛问题,提供单一视图访问数据。本文介绍了三种方法:模式集成通过中介模式提供统一查询接口;数据复制将数据预先复制到统一源,适合数据源稳定或查询模式已知的情况;基于本体的方法解决语义异构,包括单本体、多本体和混合本体方法。每种方法有其适用场景和优缺点。
摘要由CSDN通过智能技术生成

一. 数据集成的基本概念

在信息化建设初期,由于缺乏有效合理的规划和协作,信息孤岛的现象普遍存在,大量的冗余数据和垃圾数据存在于信息系统中,数据质量得不到保证,信息的利用效率明显低下.为了解决这个问题,数据集成技术[62]应运而生.数据集成技术是协调数据源之间不匹配问题[63−67],将异构、分布、自治的数据集成在一起,为用户提供单一视图,使得可以透明地访问数据源.系统数据集成主要指异构数据集成,重点是数据标准化和元数据中心的建立.

  • 数据标准化:数据标准化的作用在于提高系统的可移植性、互操作性、可伸缩性、通用性和共享性.数据集成依据的数据标准包括属性数据标准、网络应用标准和系统元数据标准.
  • 名词术语词典、数据文件属性字典、菜单词典及各类代码表等为系统公共数据,在此基础上促成系统间的术语、名称、代码的统一,促成属性数据统一的维护管理;
  • 元数据中心的建立:在建立元数据标准的基础上,统一进行数据抽取、格式转换、重组、储存,实现对各业务系统数据的整合.经处理的数据保存在工作数据库中,库中所有属性数据文件代码及各数据文件中的属性项代码均按标准化要求编制,在整个系统中保持唯一性,可以迅速、准确定位.各属性项的文字值及代码,也都通过词库建设进行标准化处理,实现一词一义.建立元数据中心的基本流程如下图所示.
    在这里插入图片描述

二. 数据集成方法

数据规范和数据交换的完成,对数据集成的有效进行提供了很大的帮助,但在数据集成时仍然需要解决以下难题.
首先是异构性.数据异构分为两个方面:其一,不同数据源数据的结构不同,此为结构性异构;其二,不同数据源的数据项在含义上有差别,此为语义性异构;其次是数据源的异地分布性;最后是数据源的自治性.数据源可以改变自身的结构和数据,这就要求数据集成系统

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值