数据集成方法发展与展望

一. 摘要

数据集成在数据管理与分析领域起着重要的作用.尽管从学术界首次提出并开始研究数据集成问题已经过去 30 多年,但在各个领域仍然存在着大量与数据集成问题密切相关的问题亟待解决.对数据集成领域从 2001 年开始到现在相关工作的发展脉络进行了梳理与总结.通过追踪数据集成方法的发展轨迹,不仅可以了解前人在解决该问题时所作出的努力以及发掘出的研究方向,还可以进一步了解各个数据发展领域所研究问题的成因以及发展脉络.最终,通过分析近几年数据集成方面的工作,可以进一步展望未来在数据集成领域的潜在研究方向,为从事相关领域研究的学者提供参考.
数据集成指通过对数据源进行融合 , 发现来自不同数据源中指代相同含义、实体的数据之间的关联关系的研究。.在实际应用中,数据集成工作对大数据的管理、查询以及分析场景都具有重要的作用.

  • 数据管理.对海量数据的高效管理是大数据时代所面临的重要挑战之一,良好的数据管理策略可以极大地提升数据质量、访问效率,同时降低对数据的维护成本.而有效的数据集成方法则可以帮助用户提出更好的数据管理策略.例如,数据集成技术可以识别出具有关联关系的数据和文件,通过将具有关联关系的数据存储于集群中的相同节点上,在访问这批数据时可以极大地提升对数据的访问效率;通过梳理海量数据之间的逻辑关联结构,可以让管理者更容易理清当前所管理的数据结构以及基本信息;
  • 数据查询.对海量数据的快速查询与检索,需要高质量索引结构的帮助.而数据集成技术可以辅助构建更高质量的索引.例如,通过理解不同数据源之间的数据关联关系,结合实际应用需求,用户可以针对集成后的数据集构建索引.相比传统索引技术只能对单一数据源的查询进行加速,面向全局模式的索引可以对面向多数据源的复合查询进行加速;
  • 数据分析.数据分析与数据集成工作是相互融合与促进的,数据分析技术可以帮助用户更好的理解数据的含义,提升数据集成的质量;而对数据进行集成则可以帮助数据分析工作得到更加丰富的成果.例如在数据分析过程中,对一些含义不明确的数据,可以进一步集成互联网上的相关信息(维基百科等),从而更好地理解数据含义,提升数据分析质量.

二. 发展概要

首先介绍不同分类下的数据集成技术的主要特征,结合具体的例子说明数据集成技术在不同发展阶段的主要目标。
数据集成最初的任务目标是找到给定数据集内数据列、数据元组之间的关系 . 通过将代表相同属性的属性列、指代相同实体的元组之间建立联系 , 可以起到从数据集中发现更多知识的目的。
在这里插入图片描述
以图 1 为例,假设最初的数据集中只有表 1 和表 2,表 1 描述的是一些书籍名字和对应的书籍作者、语言等信息,表 2 描述的是一些作者及其国籍.通过数据集成,我们可以将表 1 中的元组与表 2 的元组按作者名字对应起来,从而得到例如《悲惨世界》 “的作者是法国人”这样的信息.而这条信息并不单独存在于表 1 或表 2 中,这就是通过数据集成从而获得更加丰富的数据信息的实例.
这样的规则是可以通过人工定义的,比如用户完全可以在查询语句中手动将表 1 的作者与表 2 的名字列进行联系,或者将这样的规则手动写入数据库中.然而,当数据库中存在成千上万甚至更多张表时,依靠人工将所有的关联关系全部找出来是不现实的.这也是数据集成研究最初的动力:设计一种方法,能够自动地识别出数据集中潜在的数据集成关系.如何确定这些依靠原始数据集无法发现的数据关联,是后续数据集成研究需要解决的问题。
为了解决少量数据集提供的语义信息不足以支撑数据集成分析问题时,一种可行的思路是继续扩充数据集.例如,当我们发现只依靠表 1 与表 3 的信息无法准确消除“悲惨世界”这个实体在两张表中引起的歧义时,我们可以进一步导入新的数据集.例如,我们可以将表 4 导入到数据库中.表 4 描述的是一些经典世界名著的名字以及作者,其中就包含了“悲惨世界”以及“雨果”这两条信息.由于这两条信息与表 1 中的内容相匹配,我们可以认为表 1 的“悲惨世界”这一条元组描述的是书籍,进而推断表 1 中的数据全部是书籍的信息.然而,能够发现这
条知识的前提是我们能够在表 4 中及时发现“悲惨世界”这条与表 1 信息相匹配的内容.可以看到,表 4 中包含的内容非常多,因此我们需要设计一种方法,能够快速从表 4 中发现我们需要的信息.这正是后续数据集成技术发展的主要方向之一:如何从庞大的数据集中快速、高效地发现其中潜在的关联关系.
另一种数据集成的技术思路是引入互联网数据.互联网中蕴藏着大量潜在的知识信息,例如,我们可能在互联网上看到类似图 1 中新闻 1 这样的信息.这一信息可以帮助我们识别“李安”属于电影导演,将这条知识与表 3中的数据相结合,我们也可以得出表 3 的数据描述的是电影信息这样的结论.这样将互联网中的信息与本地数据库数据结合进行数据集成的技术,也是目前数据集成领域采用的主流技术之一.在此基础上,人们甚至可以直接从互联网上获取数据来进行集成,直接通过互联网挖掘有价值的知识信息.
在对网页数据进行集成时,有几大挑战需要解决.

  • 首先是数据信息的提取.网络上的很多数据可能都是类似于图 1 中的文本数据,在对这些数据进行集成时,首先需要将其转换成数据集成处理的结构化数据,在这一过程中,如何实现数据格式的转换是第一大挑战;
  • 除此之外,网络上的数据源质量参差不齐,有的数据集中包含的有效信息很少.如何及时过滤掉低质量的数据源,或者从海量数据源中找到所需要的信息,也是面向网络数据的数据集成需要解决的问题;
  • 考虑到互联网所蕴藏的数据规模,如何高效地对海量数据进行集成,也是这类研究需要考虑的问题.
    有些数据集成工作使用自动化算法很难实现,但如果由人来分辨就会很容易.正是针对这一特性,基于众包的数据集成技术被提出.众包技术的核心思路是:将计算机无法判断的任务分发出去,交由人来进行判断(人在进行判断时一般会获得一些奖励),并将多人的判断结果进行整合,得出最可信的结论.可以看到,众包技术可以更加精确地发现数据集成问题中的数据关联关系.因此,使用众包技术作为解决数据集成问题的思路是一种非常热门的方法.
    然而在使用这类技术时,仍然需要解决众包领域的一系列通用性问题.
  • 首先是成本问题.一般的众包任务会对参与众包的人进行一定的奖励,这些奖励就是设计众包任务时的开销.在设计众包任务时,应当考虑如何用最小的开销得到最精确的结果.为了达到这一目标,需要选择最合适的问题以及最关键的数据作为众包任务.因此,如何妥善选择合适的众包任务,成为了这类问
    题需要解决的挑战之一.
  • 另一个需要考虑的问题是众包任务的时间开销.与计算机的运算速度相比,将一个问题提交给众包再得到结果的时间开销是非常大的.而考虑到大数据时代对算法效率的追求,如何取得众包任务的时间开销与算法效率之间的有效平衡,也是基于众包的数据集成领域的重要挑战.

真正完成一个数据集成任务,除了数据集成算法本身以外,还需要考虑到数据输入、预处理、数据清洗以及后续的数据输出、可视化等一系列问题.除此之外,在有些时候,单一的数据集成算法可能不足以处理复杂的数据集成任务,因此需要引入多种数据集成技术用于处理不同的应用场景和数据集.针对这些场景,一些学者和企业开发了数据集成系统用于处理实际生活中碰到的数据集成问题。

三. 技术综述

3.1 早期数据集成技术

早期的数据集成领域研究主要集中在针对给定数据源以及数据集,如何识别出描述相同属性,相同实体的数据表、数据列与数据元组之间关联起来.在关联关系的挖掘方面,主要采用的是较为简单、基于字符串进行直接匹配,通过人工识别等方式完成.相关的文献由 Erhard 等人[5]进行了较为全面的介绍与总结.在此基础上,后续的文献引入了在更复杂的问题定义与应用场景下解决数据集成问题的方法.Jacob 等人[6]基于贝叶斯模型对数据之间的关联关系进行评估,再将最优的概率模型作为最终的数据集成模式.Kang 等人[7]针对之前的数据集成方法需要依赖准确的数据名进行识别的问题,基于数据之间的互信息,提出了针对列名不明确或缺失场景下的数据集成方法.He 等人[8]针对在给定数据集范围内可能无法得出准确数据集成结果的问题,考虑到了进一步引入网络上的知识与数据用于协助数据集成工作.Sergey 等人[9]将原始数据模式映射成图模型,并提出了图匹配方法对图之间进行集成.在此基础上,本文还进一步引入了人工监督(human supervision)来进一步提高数据集成的准确度.Robin 等人[10]针对之前的数据集成方法主要解决一对一对应的问题,

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值