数仓开发增量数据到全量表方案记录

数仓开发增量数据到全量表一般来说有两种方法

  1. 通过扫描增量表的全部分区进行全量的产出

    • 扫描上游增量表的全部分区数据
    • 关联所需要的维度即可
  2. 通过自依赖上一个周期的数据和增量表的数据Union产出

    • 扫描上游增量表最新的1-3个分区(防止数据漂移)
    • 扫描产出目标表的上一个周期的仅增量表中有的字段
    • Union ALL 再 group by 去重
    • 关联所需要的维度
      说明:方法二的坑是Union的字段只能是增量表中的字段 不能直接把目标表的上一个分区全部字段拿过来union
      例如:增量表如果只有page_id 字段page_name需要从维表里面拿的话,page_name
      下面是维表的每个分区的记录
日期字段名字段值字段名字段值
20240101page_id1page_name1
20240102page_id1page_name2
20240103page_id1page_name3
20240104page_id1page_name4
20240105page_id1page_name5

如果从20240101开始直接拿目标表上一个分区的全部信息和 (增量表最新的分区数据关联维度) union 会发现
后面全部分区的page_id = 1 的数据 page_name = 1
下面是目标表的数据记录

日期字段名字段值字段名字段值
20240101page_id1page_name1
20240102page_id1page_name1
20240103page_id1page_name1
20240104page_id1page_name1
20240105page_id1page_name1
  • 9
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
一、项目背景 随着金融市场的不断发展,银行信贷业务的数据量不断增加,数据来源也越来越多元化,尤其是在金融科技的推动下,大量的业务数据被银行所持有和管理。为了更好地管理和利用这些数据,银行需要建立一个完善的数据仓库系统,以支持银行从事信贷业务的风险控制、业务分析、客户关系管理等方面的工作。 本项目旨在为该银行建立一个可扩展、高效、稳定的数据仓库系统,实现从多个数据源中提取、清洗、转换和加载数据数据仓库中,并提供完善的数据查询和分析功能,以支持银行信贷业务的各项工作。 二、需求分析 1. 数据数据源包括银行内部的各个系统,如核心银行系统、风险管理系统、客户关系管理系统等,以及外部数据源,如第三方数据提供商、征信机构等。 2. 数据提取 数据提取应该能够从不同的数据源中提取数据,并能够自动化地完提取任务。提取的数据应该包含银行信贷业务相关的各种数据,如客户信息、贷款信息、还款信息等。 3. 数据清洗 提取的数据需要进行清洗和转换,以保证数据的准确性和一致性。清洗的任务包括去重、纠错、格式转换等。 4. 数据转换 数据转换是将提取的数据进行格式转换,以便于后续的数据分析和查询。转换的任务包括字段映射、数据类型转换、数据合并等。 5. 数据加载 数据加载是将清洗和转换后的数据加载到数据仓库中。数据加载应该支持增量加载和全量加载两种方式,并能够保证数据的完整性和正确性。 6. 数据查询和分析 数据查询和分析是数据仓库系统的核心功能。数据查询应该支持多维度的查询,如时间维度、地域维度、业务维度等,并能够支持可视化的数据呈现。 7. 数据安全 数据安全是数据仓库系统的重要保障。数据应该进行加密和权限控制,以保证数据的机密性和完整性。 8. 系统维护 系统维护是数据仓库系统的重要任务之一。系统维护应该包括系统监控、日志管理、备份和恢复等操作,以保证系统的可靠性和稳定性。 三、总结 本文对银行信贷业务数仓项目的需求进行了分析,包括数据源、数据提取、数据清洗、数据转换、数据加载、数据查询和分析、数据安全、系统维护等方面。通过对这些需求的分析,可以为该项目的设计和开发提供重要的指导和参考。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值