转:数据抽取核心问题

第一章 简介

1.1    数据抽取核心问题

数据抽取是数据仓库技术中最谨慎的工作,因为其涉及到其它正式系统,成功的数据抽取必须保证对正式系统影响足够小,同时数据抽取性能足够好。这样就有如下结构性建设建议:

n         链接正式系统用户只有查询权限,并且数据库链接用户及密码保密。我们公司的链接正式系统用户为MBBI,该用户密码由网络管理科管理,所以DBLINK由网络管理科进行配置;

n         数据抽取速度足够快。数据抽取分初始化和增量抽取,抽取初始化数据量较大,需要网络管理开放一定的网络速度,按当前速度1小时可以抽取5000万条以上数据,增量抽取因为数据量较小,可以把网络速度控制在正常范围内。增量抽取分日志完全增量方式和关键字段增量抽取,现在大部分BI公司采用的是后者,比如说把近一个月数据抽取过来,每天更新,这种方式除了每天抽取数据量远远超过实际增量外,还在理论上存在数据空隙的风险。

n         需要在DW端保留一个业务备用库。数据仓库的设计不可能一步到位,而如果每次数据仓库的改动都需要从业务库读取数据,那么对业务库的影响将非常明显,可用的解决办法就是在DW端保留一个业务映像库,该库保持和业务系统库完全一致的结构。

n         必须清楚业务库的改动和DW之间的关系,知道其解决办法。常遇到的问题是业务库表结构变化,这时我们采用的武汉视图映像业务库技术就会遇到问题,其必须有解决办法。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值