数据百问系列:什么是 ETL ?ETL 的常见技术方案是什么?

本文介绍了ETL的基本概念,包括数据抽取、转换和加载过程,并通过具体的例子展示了如何使用Flume、Sqoop、Hadoop和Spark进行数据处理。数据流主要分为离线和实时两类,离线数据常采用Sqoop、Flume、MR,实时数据则使用Spark Streaming和Flink。文章还讨论了一个实时同步MySQL到大数据集群的场景,提出了Canal监听binlog和使用Kafka、Spark Streaming、HDFS、Hbase和ES的解决方案。
摘要由CSDN通过智能技术生成

0x00 前言

三年前写过一篇ETL的文章,最近又被小伙伴问到了,因此略作整理放进数据百问系列。

虽然已经过去两三年了,ETL 领域的一些组件也都有了一些更新,但是整体来看设计的理念变化不是特别大(比如实时处理以前流行的是Spark Streaming,现在流行 Flink,而对于组件,本文也不会讲解他的一些使用教程。本文更多地是分享做ETL和数据流的思考。)

文章结构

  1. 先聊一下什么是 ETL。聊一下大致的概念和一般意义上的理解。

  2. 聊一聊数据流是什么样子。因为 ETL 的工作主要会体现在一条条的数据处理流上,因此这里做一个说明。

  3. 举个具体的例子来说明。

0x01 什么是 ETL

ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。

嗯,怎么理解 ETL 这个东西呢?直接上一个网上搜到的招聘信息看一下:

职位名称:ETL工程师


职位职责:


负责ETL系统研发和对外支持工作;
设计科学的数据抽取、转换、加载的工作流程,保证数据及时、正确地抽取
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值