大数据计算前数据抽取(ETL)概述

ETL是构建数据仓库的关键步骤,涉及数据抽取、清洗和装载。它整合企业分散数据,为决策分析提供支持。ETL占据BI项目重要时间,其设计直接影响项目成败。ETL包括数据抽取、清洗、转换和加载,数据清洗和转换是工作量最大的部分。ETL架构涉及规划、设计和数据流主线。良好的ETL设计确保数据仓库的质量和效率,对数据仓库项目至关重要。
摘要由CSDN通过智能技术生成

     ETL,Extraction-Transformation-Loading的缩写,即数据抽取(Extract)、转换(Transform)、装载(Load)的过程,它是构建数据仓库的重要环节。

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI项目重要的一个环节。通常情况下,在BI项目中ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败。

  在数据仓库的构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线,包括了数据清洗、整合、转换、加载等各个过程。如果说数据仓库是一座大厦,那么ETL就是大厦的根基。ETL抽取整合数据的好坏直接影响到最终的结果展现。所以ETL在整个数据仓库项目中起着十分关键的作用,必须摆到十分重要的位置。

   ETL架构

创建ETL系统的时候,头脑里应并存的两条主线:规划&设计主线和数据流主线

规划&设计主线:需求和实现===〉架构===〉系统实施===〉测试和发布

数据流主线:抽取===〉清洗====〉规格化====〉提交


(图片借用,如果有侵权,请即时通知我处理)
 

  通过ETL,我们可以基于源系统中的数据来生成数据仓库。ETL为我们搭建了OLTP系统和OLAP系统之间的桥梁,是数据从源系统流入数据仓库的通道。在数据仓库的项目实施中,它关系到整个项目的数据质量,所以马虎不得,必须将其摆到重要位置,将数据仓库这一大厦的根基筑牢!

  ETL主要是利用转换服务器的处理能力,从源表抽取数据后,在转换服务器中进行数据清洗、转换,完成后加载到目标库中。它

  • 4
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值