GBASE南大通用数据库分享:Teradata迁移到GBase 8a解决方案(2)

2023年,Teradata宣布退出中国市场,这必将给国内数据库行业及用户带来一定的影响。国产数据仓库的领先企业GBASE南大通用自主研发的GBase 8a MPP (GBase UP LDW)分布式逻辑数据仓库,已经完成了100余用户TeraData等国外数据仓库替换迁移。通过众多项目的实施,在替换Teradata产品方面,GBASE南大通用积累了丰富的实施经验,形成了一套完整的迁移实施方案,可快速复制推广,实现由teradata到GBase 8a的高精准迁移。

下面根据GBase 8a的迁移经验,对迁移方案进行阐述:

四、数据及业务的迁移,主要进行全量、增量数据的迁移、ETL追跑、迁移前后数据的比对方式等技术难点进行提前规划,数据流程的迁移流程如下所示。

图片

1、全量数据迁移方案评估方案及要点

迁移全量数据,其迁移的时间窗口很大程度的决定全量迁移是一次性还是分批迁移。主要有以下几个方面的因素影响,需要重点考虑:

  • 源数据库迁移数据量【需要实测以评估源库内数据的压缩比】

  • 业务允许的停机时间窗口【此过程中源库需要处于只读状态,且负载要轻,往往是硬约束条件】

  • 源数据库数据导出性能【需要实测已确定能力】

  • 加载文件服务器台数、IO性能、与8a集群网络带宽【迁移环境制约因素】

  • 8a集群节点的加载性能【IO性能和网络带宽综合考虑】

  • 增量业务的类型append only/IDU/拉链表/每次都全量 【决定增量追跑的方式,是否支持分批迁移】

  • 仓库设计上是否支持分层、是否支持数据加工幂等性 【决定迁移是否可以按业务或者层次进行纵向或横向的分批】

对于迁移时间窗口的预估,需按照如下的公式进行估算:

  • 迁移整体时间 = TD导出时间 + GBase 8a加载时间

  • TD导出时间 = TD存储数据量(单位GB) /   TD并行导出性能(GB/小时)

  • GBase 8a加载时间 = TD导出数据量(单位GB) / GBase 8a并行加载性能(GB/小时)

  • GBase 8a并行加载性能 = 加载机台数 * 1000MB/s * 1/2 *3600

数据迁移需要注意的点有:

  • TD存储数据量要转化为导出库外平面文件的数据量,因此要评估压缩比

  • TD并行导出的性能需要实测,并考虑导出时TD的负载情况

  • GBase 8a并行加载性能需要实测,推算时刻参考公式4

  • 评估万兆带宽的使用率时要给出一定的冗余度,一般计算需要乘以1/2系数

  • 整体时间窗口按照导出和加载串行方式评估,而不采用流水线方式评估,保证一定冗余度应对突发情况,而实际执行时可以按照pipeline方式设计迁移的实际执行方式。

以下是设计出的三种不同复杂度的全量数据迁移方案:

1)简单迁移方案

图片

2)纵向按业务迁移方案

图片

3)横向按仓库层次迁移方案

图片

4)纵横混合方式迁移方案

图片

2、增量数据迁移

增量数据一般来源于上游,最常见的是时间戳的方式,通过时间戳来区分增量数据,每次同步时间戳迭代的数据,达到增量同步的目的。

时间戳方式(对各种数据库):它是一种基于快照比较的变化数据捕获方式,在源表上增加一个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值。当进行增量数据抽取时,通过比较系统时间与时间戳字段的值来决定抽取哪些数据。

优点:同触发器方式一样,时间戳方式的性能也比较好,ETL 系统设计清晰,源数据抽取相对清楚简单,可以实现数据的递增加载。

缺点:时间戳维护需要由业务系统完成,对业务系统也有很大的侵入性(加入额外的时间戳字段),需要对业务系统的数据表的模型设计有一定的修改。

  • 23
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值