Apache Beam简介及相关概念

一.简介

Apache Beam 是一个开放源码的统一模型,用于定义批处理和流数据并行处理管道。Apache Beam 编程模型简化了大规模数据处理的机制,使用一个开源的 Beam sdk,你可以构建一个定义管道的程序,然后由 Beam 支持的分布式处理后端执行管道,这些后端包括 Apache Flink、 Apache Spark 和 Google Cloud Dataflow。

Apache Beam 模型可提供有用的抽象,这些抽象使你无需去操心分布式处理的低层细节,例如协调各个工作器、分片数据集和其他此类任务,Dataflow 可全面管理这些低层细节,使你以专注于对数据处理作业进行逻辑组合,而不是对并行处理进行物理编排。你可以专注于你需要作业执行的任务,而不是执行作业的方式。

Beam 对于令人尴尬的并行数据处理任务特别有用,在这些任务中,问题可以被分解成许多较小的数据束,这些数据束可以独立地并行处理。你还可以使用 Beam 进行提取、转换和加载(ETL)任务和纯数据集成。这些任务对于在不同的存储介质和数据源之间移动数据、将数据转换为更理想的格式或将数据加载到新系统都很有用。

二.基本概念

1.Pipelines

管道封装了涉及读取输入数据、转换数据和写入输出数据的整个一系列计算。输入源和输出接收器可以是相同的,也可以是不同类型的,这允许您将数据从一种格式转换为另一种格式。Apache Beam程序首先构造一个Pipeline对象,然后使用该对象作为创建管道数据集的基础。每个管道代表一个单独的、可重复的作业。

2.PCollection

PCollection表示一个潜在的分布

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值