活动推荐 | CommunityOverCode Asia 2024 专题介绍之 DataOps

ApachePulsar

于 2024-07-11 22:20:23 发布

阅读量123

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzUyMjkzMjA1Ng==&mid=2247494224&idx=2&sn=7f0ac104d42f5a30eeac48037531d547&chksm=f8650b5def8460822480e8e600dba496100fe5d4956a69d705d6a71106d8c7497d225516bc00&scene=126&sessionid=0

版权

“
🔥 通知：本次CommunityOverCode Asia 2024 大会，Apache Pulsar社区获赠有部分免费普通门票赠票（不含餐和伴手礼）和 8 折优惠码，可购买任意门票。赠票将在接下里的社区活动里发送，请大家关注社区最新活动。折扣优惠购票请需要的小伙伴联系 Pulsar Bot 获取，先到先得哦。
”

报名链接：

Pulsar 议题介绍

标题：Apache Pulsar 集群规模控制和稳定性实践

ROOM 2 Fri 2:00 pm - 2:30 pm
Messaging
林琳

无论是服务云原生化还是 AI 模型训练，作为基础组件的消息队列的稳定性越来越重要。

上层业务的规模越来越大，对消息队列的性能和吞吐量的要求也越来越高。

集群的持续扩展将不断扩大集群的规模。大型集群容易出现热点和爆炸半径过大等问题，这些问题一直影响着上层服务的稳定性。

过小的集群无法承载不断增长的业务流量，自然会出现资源利用不足等问题。

华为终端云中间件团队多年来总结了一套在一线生产环境中的集群规模控制实践。将集群规模和业务隔离控制在合理范围内，对于高流量业务采用无服务器的消息队列，服务器跨集群调度资源。

在确保集群资源利用的前提下，不断提升消息队列的稳定性。

标题：腾讯云上基于云原生消息系统 Apache Pulsar 的大规模生产实践

ROOM 2 Sat 2:30 pm - 3:00 pm
Messaging
韩明泽

Apache Pulsar 是一个云原生的分布式消息和流处理平台。Apache Pulsar 采用存储与计算分离的架构，支持大规模集群、多租户、百万级主题、跨区域数据复制、持久化存储、分层存储、高可扩展性以及企业级和金融服务等需求。Apache Pulsar 提供统一的消费模型，支持消息队列和流处理场景。它不仅为队列场景提供企业级的读写服务质量和强一致性保证，还为流处理场景提供高吞吐量和低延迟。

Apache Pulsar 已在关键的企业业务中得到应用，并具有丰富的应用场景。目前，腾讯云也在生产实践中大规模应用 Apache Pulsar。在生产实践中，腾讯云为Apache Pulsar进行了一系列性能优化和稳定性增强，以确保在不同场景下为用户提供稳定高效的系统运行。同时，面对复杂的网络环境和云上的业务需求，还支持更多的功能和特性，以支持业务向云端的迁移。

在本次演讲中，我们将重点介绍腾讯云在 Apache Pulsar 的稳定性、性能和功能特性方面的关键工作，为开发者提供参考。

标题：Apache Pulsar 在跨 Kubernetes 集群场景下的部署实践

ROOM 2 Sun 2:00 pm - 2:30 pm
Cloud Native
方阗

Apache Pulsar 集群通常由 Apache Pulsar、Apache ZooKeeper、Apache BookKeeper 等组成，其中 Apache ZooKeeper、Apache BookKeeper 通常在 Kubernetes 中作为有状态服务。在跨 kubernetes 集群部署的情况下，这些组件经常面临诸如如何跨多个集群维护统一的顺序索引，以及如何维护最小数量的可用集群副本等问题。本主题探讨如何在跨 kubernetes 集群场景中部署 Apache Pulsar。

标题：使用 Apache StreamPipes 和 Apache Pulsar 进行物联网流处理

ROOM 6 Sun 2:30 pm - 3:00 pm
IoT
杨子棵

Apache StreamPipes 是一个自助式（工业级）物联网工具箱，使非技术用户能够连接、分析和探索物联网数据流。在 Apache StreamPipes 0.93.0 版本中增加对 Pulsar 消息系统的支持后，我们可以将 StreamPipes 的用户友好界面与 Pulsar 强大的流式消息处理和存储能力相结合。这使得更容易构建更复杂且对性能要求较高的物联网流处理应用程序。

在本次演讲中，我们将讨论如何使用 StreamPipes 和 Pulsar 高效构建和运营物联网流服务。我们将重点利用 StreamPipes 基于 Pulsar 构建流式计算应用程序，利用 Pulsar 的各种订阅模型、精确的消息确认机制、数据模式、消息读写优化等现有功能，来丰富 StreamPipes 的流式计算能力。我们还将探讨使用 StreamPipes 和 Pulsar 开发物联网流服务的最佳实践。

专题介绍

本次 CommunityOverCode Asia 2024 的 DataOps 专题，将给大家带来 Apache 社区建设和发展的最新资讯和前沿实践，现在就一起来看看吧！

专题介绍

CommunityOverCode Asia 2024

在 ApacheCon 的 DataOps 专题，该专题集中展示了 Apache 生态系统中一些最具创新性和尖端的项目。该专题汇聚了来自 Apache DolphinScheduler、Apache Airflow、Apache SeaTunnel、Apache Flume、Apache Sqoop、Apache Griffin、Apache Atlas 以及其他与 DataOps 相关的项目的领先专家和贡献者，探索数据操作、自动化和编排的最新进展。无论您是经验丰富的数据专业人员还是刚刚入门的新手，这个专题都为每个人提供了有价值的内容，包括数据管道、ETL、编排、数据质量、元数据等多个主题的会话。在 ApacheCon 上，加入我们一起深入探索 DataOps 领域的精彩世界。

出品人

CommunityOverCode Asia 2024

郭炜

CommunityOverCode Asia 2024

白鲸开源 CEO， Apache 软件基金会成员。郭炜先生毕业于北京大学，现任中国通信学会开源技术委员会委员，TGO 鲲鹏会北京分会会长，Apache SeaTunnel PMC，Apache DolphinScheduler PMC，波兰 DataOps 峰会、北美 ApacheCon 演讲嘉宾，北美 Big Data Day 演讲嘉宾，虎啸十年杰出数字技术人物，中国开源社区最佳 33 人，中国 2021 年开源杰出人物。

聂励峰

CommunityOverCode Asia 2024

白鲸开源 COO，Apache SeaTunnel PMC & Apache DolphinScheduler Committer，2023 中国开源先锋 33 人之心尖上的开源人物，ClickHouse 中国社区志愿者组长。

议程亮点

CommunityOverCode Asia 2024

7 月 26 日 14:00 - 16:45

演讲议题：持续优化：两年内 Cisco Webex 基于 Apache DolphinScheduler 的改进和创新

分享时间：7 月 26 日 14:00 - 14:30

议题介绍：

在过去的两年里，Cisco Webex 团队基于 Apache DolphinScheduler 持续优化我们的大数据处理平台。本次分享将介绍这些自适应的改进和创新，同时也会分享一些业务挑战和解决方案。

演讲嘉宾：

Qingwang Li丨Cisco Webex, Software Engineer

思科 Webex，软件工程师，Apache DolphinScheduler Committer

演讲议题：Apache SeaTunnel 基于批处理和流集成实现了高效的数据同步

分享时间：7 月 26 日 14:30 - 15:00

议题介绍：

Apache SeaTunnel 是如何基于 Flink 构建一个高效的数据集成工具的？

演讲嘉宾：

Chao Tian丨Apache SeaTunnel PMC Member

开源爱好者，曾为一些数据集成项目如 DataX、Flink CDC、Debezium、Chunjun 等做出贡献，是 Apache SeaTunnel 的项目管理委员会（PMC）成员。

演讲议题：在小米数据集成中进行全链路数据监控实践

分享时间：7 月 26 日 15:00 - 15:30

议题介绍：

这篇演讲介绍了小米在数据集成实践中构建的可视化全链路数据监测系统。

本次分享的重点是小米数据集成全链路数据监测技术的实现。从数据集成链路系统出发，针对数据集成实践中遇到的可靠性挑战，从可视化全链路数据监测建设方案的角度，分享并解释了提案和实施等方面。以数据集成可靠性和全链路监测两个主题为重点，演讲解释了构建可观察的数据集成全链路监测系统对提高数据集成可靠性和用户体验的益处。

第一部分：小米数据集成的发展

在小米的日常运营中，数据集成扮演着至关重要的角色。它是连接各个业务模块的桥梁，实现数据的共享和流通。通过数据集成，我们可以高效地整合来自不同来源和格式的数据，为后续的数据分析和业务决策提供强有力的支持。本章将介绍小米数据集成的发展历史、支持的数据链路、业务范围以及作业量级。

第二部分：数据集成面临的可靠性挑战

对于普通用户来说，数据集成往往是一个黑盒过程。他们不了解数据如何从一个系统转移到另一个系统，或者在转移过程中可能遇到的问题。这种不透明性增加了用户对数据可靠性的担忧。本章将介绍用户对数据集成可靠性的疑虑以及小米在数据集成过程中遇到的数据一致性挑战。

第三部分：全链路数据监控的构建与实践本章从同步链接的可靠性出发，介绍了全链路数据监控系统的构建，包括大规模数据统计、操作的实时流量监控、基于滚动窗口的全链路数据计数统计以及端到端数据比对。通过这些能力的建设努力，展示了小米在数据集成可靠性方面的工作成果。

第四部分：未来展望和改进方向在未来，将扩大实时监控链路的范围，提升流量控制能力以提高链路的稳定性，并支持离线场景下的数据验证。

在数据集成领域，构建可观测的监控链路系统、增强数据集成的稳定性、提高用户体验方面具有参考意义。

演讲嘉宾：

Jianqiang Sun丨Xiaomi

小米软件研发工程师，主要负责与数据集成相关的工作。

演讲议题：SeaTunnel 技术架构的演变及其在 AI 中的应用

分享时间：7 月 26 日 15:45 - 16:15

议题介绍：

通过分享 SeaTunnel 项目技术架构的演进，我们将了解如何从零开始构建一个数据集成工具，需要考虑哪些核心要求，以及如何最好地实现这些要求。

同时，我们还将向大家介绍 SeaTunnel 在 AI 领域的应用。

演讲嘉宾：

Jun Gao丨ASF Member, Apache SeaTunnel PMC Chair, Apache DolphinScheduler PMC Member

ASF 成员，Apache SeaTunnel 项目管理委员会（PMC）主席，Apache DolphinScheduler 项目管理委员会（PMC）成员。

演讲议题：联通数字科技基于 Apache DolphinScheduler 构建的集成数据资产平台

分享时间：7 月 26 日 16:15 - 16:45

议题介绍：

1、基于 Apache DolphinScheduler，整个数据处理链路被串联起来，从数据采集到数据应用的全流程运营管理。

2、匹配代码数据研发平台，将数据探索和数据研发转变为低成本、高效率的方向。

3、针对标准、商业智能（BI）和数据开发提供的智能实用解决方案。

演讲嘉宾：

Liu Wu丨Senior big data development engineer

在大数据领域有数年的系统管理与平台开发方面的经验，涉及的技术栈包含了大数据生态系统、实时计算和存储、数据仓库、数据湖，并积极参与相关社区代码贡献，如调度工具 DolphinScheduler、数据湖 Paimon、Dinky 等。

7 月 27 日 14:00 - 16:45

演讲议题：在阿里云中使用 Apache DolphinScheduler 进行大数据调度的探索与实践

分享时间：7 月 27 日 14:00 - 14:30

议题介绍：

Apache Dolphinscheduler 是一个分布式且易于扩展的工作流调度平台，它可以帮助用户实现高效可靠的工作流调度和管理。阿里云 EMR Workflow 是一个基于 Apache Dolphinscheduler 构建的云原生无服务器大数据开发和调度平台。本次演讲将从易用性、可扩展性和稳定性等角度，分享基于 Apache Dolphinscheduler 的 EMR Workflow 的探索与实践。

演讲嘉宾：

Xin Cheng丨SDE with Alibaba Cloud, Apache Dolphinscheduler Committer

2019 年获得北京邮电大学的学士学位，并于 2022 年获得清华大学的硕士学位。目前是阿里云的软件开发工程师，同时也是 Apache Dolphinscheduler 的贡献者。

演讲议题：为什么我们需要构建一个统一的元数据层 —— Gravitino？

分享时间：7 月 27 日 14:30 - 15:00

议题介绍：

如今，越来越多的数据以不同形式存储在不同的云和系统中，这给企业的数据治理、安全控制和数据合规性带来了挑战。AI 需求的激增也对数据治理提出了更多要求。统一的元数据管理平台 Gravitino（计划捐赠给 Apache 孵化器）可以帮助企业清晰地掌控其数据 + AI 资产，实现多云和多引擎支持、数据权限的统一管理、敏感数据识别、脱敏规则设置等；本主题将围绕以元数据为核心的数据合规性和数据治理，并结合具体案例进行讨论。

演讲嘉宾：

Shaofeng Shi丨Datastrato, VP of engineering;

史少锋，Apache 成员，Apache 孵化器项目管理委员会（PMC）成员，Apache Kylin 项目管理委员会（PMC）成员，Apache Gluten 和 Apache Horaedb 的导师等；Datastarto 工程副总裁，Gravitino 贡献者。

演讲议题：用 AI 革新工作流编排

分享时间：7 月 27 日 15:00 - 15:30

议题介绍：

主题：讨论如何在 DolphinScheduler 中利用 AI 来增强工作流内部任务依赖性的管理，以确保更高效的数据工程和改进的数据质量。

主要内容：

1、Apache DolphinScheduler 简介

详细介绍 Apache DolphinScheduler 作为一个分布式易扩展的可视化工作流调度系统，旨在让数据同步、数据处理、AI 算法等各种任务类型能开箱即用。

2、AI增强的工作流编排智能

预测调度：通过利用 AI 预测任务执行时间，DolphinScheduler 可以更智能地调度任务，优化资源利用并最小化等待时间。
异常检测和自动修复：利用 AI 的力量监控工作流执行状态，DolphinScheduler 可以自动检测异常并触发修复过程，从而提高系统的稳定性和可靠性。

3、案例研究和实际应用

展示具体案例研究，说明企业如何在数据工程操作中有效使用 DolphinScheduler，以及通过这些实践取得的实际成果。
针对不同行业的使用案例。

4、未来展望

探索 Data + AI 的整合潜力和方向：

讨论 Data 与 AI 结合的未来前景，重点关注其进一步自动化和增强工作流智能的潜力，包括在数据驱动的过程管理中增加自动化和优化的可能性。

演讲嘉宾：

Lidong Dai丨WhaleOps Technology co-founder, Apache DolphinScheduler PMC Chair

Apache 孵化器导师，白鲸开源联合创始人，Apache DolphinScheduler 项目管理委员会（PMC）主席，Apache SeaTunnel PMC 成员， CommunityOverCode Asia 湖仓论坛出品人。

演讲议题：Apache DolphinScheduler API 重构的实践

分享时间：7 月 27 日 15:45 - 16:15

议题介绍：

关于 DolphinScheduler API 重构及相关任务的实践分享，包括：

1、为什么在 DolphinScheduler API 中采用 RESTful 标准

2、API 文档生成流程的优化

3、API 测试流程的优化

演讲嘉宾：

Yifan Sun丨EMR, Alibaba Cloud, EMR Serverless Spark, EMR Notebook, EMR Workflow

阿里云 EMR Serverless Spark 平台团队负责人，同时也负责 EMR Notebook 和 EMR Workflow 项目。

演讲议题：关于依赖任务的详尽解读

分享时间：7 月 27 日 16:15 - 16:45

议题介绍：

依赖任务是 Apache DolphinScheduler 中的一个高级功能，为用户在管理复杂的跨 DAG 依赖关系时提供了出色的灵活性。然而，由于其复杂性和在不同版本中的变化，有时用户对其行为感到困惑。本演示将详细介绍依赖任务的含义、工作原理以及相关的每一个细节，帮助您全面了解该功能！

演讲嘉宾：

Chufeng Gao丨SDE@Alibaba Cloud, PMC Member@Apache DolphinScheduler

阿里云 EMR Serverless Spark 团队的软件工程师。他专注于大数据编排工具已经超过三年。同时也是一位开源爱好者，对多个开源项目做出了贡献，如 Apache DolphinScheduler 和 Apache Airflow。https://github.com/EricGao888

扫码购票

CommunityOverCode Asia 2024

🌟 点击下方二维码或文末【阅读原文】进行扫码购票！数量有限，快来参与吧～

作为 Apache 软件基金会（ASF）的官方全球系列大会，每年的 CommunityOverCode Asia 都吸引着来自全球各个层次的参与者、社区共同探索 "明天的技术"。7 月 26 日至 28 日，即将强势来袭的 CommunityOverCode Asia 2024 上，大家可以近距离感受来自 Apache 项目的最新发展和新兴创新。