Apache Beam简介及相关概念

最新推荐文章于 2024-09-02 09:59:02 发布

奋斗的源

最新推荐文章于 2024-09-02 09:59:02 发布

阅读量1.3k

点赞数

分类专栏： Apache基础知识文章标签： Apache Beam 其他

本文链接：https://blog.csdn.net/yuanfate/article/details/117561740

版权

文章目录

一.简介

Apache Beam 是一个开放源码的统一模型，用于定义批处理和流数据并行处理管道。Apache Beam 编程模型简化了大规模数据处理的机制，使用一个开源的 Beam sdk，你可以构建一个定义管道的程序，然后由 Beam 支持的分布式处理后端执行管道，这些后端包括 Apache Flink、 Apache Spark 和 Google Cloud Dataflow。

Apache Beam 模型可提供有用的抽象，这些抽象使你无需去操心分布式处理的低层细节，例如协调各个工作器、分片数据集和其他此类任务，Dataflow 可全面管理这些低层细节，使你以专注于对数据处理作业进行逻辑组合，而不是对并行处理进行物理编排。你可以专注于你需要作业执行的任务，而不是执行作业的方式。

Beam 对于令人尴尬的并行数据处理任务特别有用，在这些任务中，问题可以被分解成许多较小的数据束，这些数据束可以独立地并行处理。你还可以使用 Beam 进行提取、转换和加载(ETL)任务和纯数据集成。这些任务对于在不同的存储介质和数据源之间移动数据、将数据转换为更理想的格式或将数据加载到新系统都很有用。

二.基本概念

1.Pipelines

管道封装了涉及读取输入数据、转换数据和写入输出数据的整个一系列计算。输入源和输出接收器可以是相同的，也可以是不同类型的，这允许您将数据从一种格式转换为另一种格式。Apache Beam程序首先构造一个Pipeline对象，然后使用该对象作为创建管道数据集的基础。每个管道代表一个单独的、可重复的作业。