自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(179)
  • 收藏
  • 关注

原创 基于Apache SeaTunnel构建CDC数据同步管道

Apache SeaTunnel是一个数据集成开发平台,其发展经历了几个重要阶段:ETL时代(90年代):面向结构化数据库的数据同步,用于构建数据仓库。MPP和分布式技术流行:使用技术如Hive进行数据仓库的构建。此阶段主要使用mapreduce程序进行数据搬运和转换。数据湖技术流行:重视数据集成,强调先同步数据至数据湖仓储,再进行业务面向的转换和设计。CDC,即变更数据捕获,是一种捕获数据库变更事件(如插入、更新、删除)的技术。

2023-12-19 12:08:21 1442

原创 数据同步工具调研选型:SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品,支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据,已应用于数百家企业生产,也是首个由国人主导贡献到 Apache 基金会的数据集成顶级项目。SeaTunnel 主要解决数据集成领域的常见问题:数据源多样:常用的数据源有数百种,版本不兼容。随着新技术的出现,出现了更多的数据源。用户很难找到能够全面快速支持这些数据源的工具。复杂同步场景。

2023-11-14 10:54:43 4751 6

原创 SeaTunnel毕业!首个国人主导的数据集成项目成为Apache顶级项目

这是首个由国人主导并贡献到 ASF 的大数据集成领域的顶级项目,这一里程碑的达成标志着 SeaTunnel 在开源软件开发领域的突破,并为其在技术、社区合作和开放创新方面的卓越表现获得了广泛认可。

2023-06-01 14:54:13 4203

原创 WhaleStudio 与飞腾 S5000C 处理器完成产品兼容测试!

白鲸开源的 WhaleStudio 是一款高性能、分布式、低代码的数据开发产品,由 Apache DolphinScheduler 和 SeaTunnel 核心团队打造。它包括任务调度、数据同步、任务血缘等功能,提供直观的IDE编辑界面、强大的调度运行功能、调度血缘分析、运维监控以及企业级权限管控。WhaleStudio广泛应用于金融、电信、零售、互联网等多个行业,为客户提供高效的数据处理解决方案。

2024-09-19 10:29:06 270

原创 使用Apache SeaTunnel高效集成和管理SftpFile数据源

本文为Apache SeaTunnel已经支持的SftpFile Source Connector使用文档,旨在帮助读者理解如何高效地使用SFTP文件源连接器,以便轻松地使用Apache SeaTunnel集成和管理您的SftpFil数据源。SftpFile 是指通过 SFTP(Secure File Transfer Protocol)协议进行文件操作的对象或组件。在网络编程和数据集成中,SFTPFile 通常用来表示和操作存储在远程 SFTP 服务器上的文件。

2024-09-19 10:27:08 1045

原创 Apache SeaTunnel Zeta引擎源码解析(三) Server端接收任务的执行流程

大家好,我是刘乃杰,一名大数据开发工程师,参与Apache SeaTunnel的开发也有一年多的时间了,不仅给SeaTunnel提交了一些PR,而且添加的一些功能也非常有意思,欢迎大家来找我交流,其中包括支持Avro格式文件,SQL Transform中支持嵌套结构查询,给节点添加Tag达到资源隔离等。接之前的文章:Apache SeaTunnel Zeta引擎源码解析(一) Server端的初始化Apache SeaTunnel Zeta引擎源码解析(二) Client端的任务提交流程。

2024-09-18 22:08:15 1209

原创 Apache SeaTunnel Committer 进阶指南

Apache SeaTunnel 作为一个开源的数据集成工具,旨在简化和加速海量数据的采集和传输。社区的 Committer 是指拥有项目存储库的写权限的社区成员,即 Committer 可以自行修改代码、文档和网站,也可以合并其他成员的贡献。成为 Apache SeaTunnel Committer 没有严格的规则,实际上,新 Committer 的候选人通常是活跃的贡献者和社区成员。

2024-09-13 10:24:49 1210

原创 Apache SeaTunnel Zeta 引擎源码解析(二) Client端的任务提交流程

大家好,我是刘乃杰,一名大数据开发工程师,参与Apache SeaTunnel的开发也有一年多的时间了,不仅给SeaTunnel提交了一些PR,而且添加的一些功能也非常有意思,欢迎大家来找我交流,其中包括支持Avro格式文件,SQL Transform中支持嵌套结构查询,给节点添加Tag达到资源隔离等。接之前的文章:下面我们会再从一个简单的任务开始, 从客户端看下任务的提交流程。

2024-09-11 11:42:20 1117

原创 Apache SeaTunnel Committer专访刘乃杰 | 用开源推动数据同步工具的创新

姓名:刘乃杰GitHub ID:liunaijie擅长领域:大数据处理与数据同步,深入研究数据同步平台已有几年时间。兴趣爱好:热爱编程与技术分享,闲暇时喜欢阅读与户外运动。作为一名在大数据领域不断探索的技术专家,刘乃杰不仅在公司内部推动了数据同步项目的实施,也在Apache SeaTunnel开源社区贡献了宝贵的代码与经验。

2024-09-11 11:14:37 870

原创 数据同步方式何来“高级”与“低级”之说?场景匹配才是真理!

导读:数据同步方式的重要性对于数据集成领域的兴从业者不言而喻,选择正确的数据同步方式能让数据同步工作的成果事半功倍。目市面上的数据同步工具很多,提供的数据同步方式也有多种,不同的数据同步方式有什么区别?如何选择适合自己业务需求的数据同步方式呢?本文将对此进行深入分析,并深入剖析WhaleTunnel在数据同步方面的功能和优势,帮助读者更好地理解其在企业数据管理中的应用。

2024-09-09 17:32:22 916

原创 信也科技基于 Apache SeaTunnel金融场景的应用实践探索

作者:朱俊,信也科技,数据开发专家离线开发一直是数据仓库建设中重要的一个环节。信也科技之前基于Azkaban构建了离线任务调度与开发平台,承载了公司90%以上的离线任务调度需求,以及玄策变量平台的每日变量跑批产出任务。随着时间的积累,任务量级越来越大,Azkaban难以运维与二次开发等问题日渐凸显,给技术同学带来不小的负担。从2023年下半年开始,借助内部创新项目的机会,开展了调度系统引擎升级的项目立项与调研,希望在新调度系统的基础上,进一步规范任务开发流程,提高运维效率,简化全链路血缘。

2024-09-05 17:56:43 1322

原创 7-8月月报 | Apache SeaTunnel社区进展一览

各位热爱 Apache SeaTunnel 的小伙伴们,社区 7-8 月份月报来啦!这两个月项目有了哪些进展?又有谁登上了我们社区的贡献者榜单呢?快来一睹为快吧。

2024-09-03 16:37:59 1139

原创 Apache SeaTunnel 2.3.7发布:全新支持大型语言模型数据转换

Apache SeaTunnel 2.3.7 的发布,是我们持续提升产品性能和用户体验的重要一步。通过新增功能、优化现有功能以及修复已知问题,我们希望为用户提供更好的数据集成和处理体验。同时,我们也期待有更多的用户和开发者加入到 SeaTunnel 社区中来,共同推动这个开源项目的发展。欢迎下载 SeaTunnel 2.3.7 版本,体验最新功能和改进。如果您在使用过程中有任何问题或建议,欢迎随时与我们联系。让我们一起,共同构建一个更加开放、强大、灵活的数据集成工具!如何参与贡献。

2024-09-02 17:16:43 1137

原创 实操经验 | Apache 基金会顶级项目版本管理和发布流程

前段时间,Apache SeaTunnel经过几个月的迭代和架构升级,终于迎来第一个正式2.3.0版本,我也有幸作为本次的Release Manager,体验了一把从0到1的Apache发版流程,不得不说Apache基金会在项目的版本管理这块有着完善的规范和严谨的流程,整个发版过程周期很长,其中也踩了不少的坑,俗话说好记性不如烂笔头,所以笔者写了一篇文章来记录整个过程(以Apache SeaTunnel为例),希望这篇文章能够让小白快速入门Apache项目版本管理和发布。

2024-08-31 00:36:50 1574

原创 Apache SeaTunnel Zeta 引擎源码解析(一)Server端的初始化

大家好,我是刘乃杰,一名大数据开发工程师,参与Apache SeaTunnel的开发也有一年多的时间了,不仅给SeaTunnel提交了一些PR,而且添加的一些功能也非常有意思,欢迎大家来找我交流,其中包括支持Avro格式文件,SQL Transform中支持嵌套结构查询,给节点添加Tag达到资源隔离等。近期推送SeaTunnel在公司内部的落地,需要跟同事,老板介绍SeaTunnel的技术架构,也需要详细的运行流程,帮助同事更好的上手开发,维护。

2024-08-28 15:27:44 1236

原创 Apache SeaTunnel技术架构演进及其在AI领域的应用

SeaTunnel作为Apache软件基金会的顶级项目,其技术架构的演进和在AI领域的应用展示了开源数据集成工具的强大潜力。我们期待与社区共同推动SeaTunnel的进一步发展。如有任何问题或建议,欢迎进入交流群参与讨论。本文由白鲸开源科技提供发布支持!

2024-08-27 11:00:18 766

原创 【用户投稿】10分钟带你深入理解Apache SeaTunnel与DataX的核心架构

举个简单的例子去理解上图:用户提交了一个DataX作业,并且配置了20个并发,目的是将一个100张分表的MySQL数据同步到ODPS里面。关于SeaTunnel的架构或者和代码执行流程,似乎官网并没有贴出对应的流程设计图。我们会发现很多项目的设计,都是存在共同之处的,或在其它项目都有类似的设计,比如阅读了。的核心流程要点,仅仅是产品的功能,对于读者来说,可能更看重的是。

2024-08-22 16:13:21 702

原创 中国每个软件创业者都是这个时代的“黑悟空”

作者 | 白鲸开源CEO 郭炜我作为一个具有30+游龄而20年+都不碰游戏的游戏玩家,最近为了《黑神话:悟空》(简称,黑悟空),不但花重金更新了显卡,还第一次下载了Steam并绑定了支付,为的就是支持这个第一次走出国门的3A游戏大作。

2024-08-21 17:11:10 945

原创 Apache SeaTunnel数据处理引擎适配的演进和规划

Apache SeaTunnel作为一个高性能数据同步工具,以其高效的数据处理能力,为数据集成领域带来了创新。在引擎上,Apache SeaTunnel除了支持自身的Zeta引擎外,还支持Spark和Flink。在2024年的CommunityOverCode Asia,Apache SeaTunnel PMC Member 田超在论坛上为大家介绍了Apache SeaTunnel基于Flink的演进历程、架构设计、核心特性,以及社区的当前进展和未来规划。

2024-08-21 15:46:39 914

原创 【数据同步】SeaTunnel初体验,5000字深入浅出带你用上Oracle-CDC

下一代高性能、分布式、海量数据集成框架。支持上百个数据源、传输速度快、准确率高,丰富易扩展的连接器和插件化的连接器设计,能够更轻松的运行复杂的集成。是一个分布式、高性能的数据集成平台,用于数据迁移和实时流处理任务。

2024-08-21 14:45:47 1154

原创 Apache SeaTunnel 2.3.5 Zeta-Server集群环境搭建与使用

作者 | 月影幽篁在当前数据驱动的业务环境中,快速且高效的数据处理能力至关重要。Apache SeaTunnel以其卓越的性能和灵活性,成为数据工程师和开发者的首选工具之一。本文将介绍如何在集群环境中搭建Apache SeaTunnel 2.3.5版本的 Zeta-Server,并概述其使用方法。

2024-08-13 15:30:12 611

原创 映客基于Apache SeaTunnel 打造高效的一站式数据集成平台

参数用来配置当前任务的超时时间,一般当系统中任务较多或节点负载较高时,在任务发布时系统会自动抽取相关任务一周内执行记录,通过分析该执行记录(执行消耗资源,消耗时间等)进行。通过以上配置平台生成一个任务并分发到集群中,并执行设置的内容,在该 DSL 中我们设置的是 SQL,平台会在集群中去执行我们输入的 SQL 内容。当然包含了整个任务的生命周期,从任务的构建到任务的结束以及数据的落地都有实时响应以及反馈。随着业务的增加,数据集成任务大量增长,越来越多的数据源的需要支持,原有的系统已经无法完全支撑现有体量。

2024-08-09 16:36:42 1165

原创 中电信翼康济世数据中台基于Apache SeaTunnel构建数据集成平台经验分享

Apache SeaTunnel作为一个高效、灵活的数据集成平台,在数据中台战略中扮演着重要角色。通过本文的介绍,读者可以了解如何基于SeaTunnel快速搭建数据集成平台,并在实际应用中灵活运用。未来,随着技术的不断发展,SeaTunnel将继续在数据集成领域发挥重要作用,助力企业实现数据驱动的业务变革。本文由白鲸开源科技提供发布支持!

2024-08-07 17:29:53 895

原创 2.3.6版本发布!Apache SeaTunnel Zeta引擎迎来新架构!

Apache SeaTunnel 2.3.6 版本于近日正式发布,社区期待的 SeaTunnel Zeta Master/Worker 新架构、事件通知机制、支持动态编译的transform等新功能和新能力在这次版本中都有了全面的更新,并添加了首个向量数据库 Milvus。此外,本版本还进行了一些基础性的 Bug 修复和文档修复等,欢迎尝试使用!

2024-08-07 16:52:53 1069

原创 如何基于 Apache SeaTunnel 构建高效数据同步管道

在数据集成的早期,主要以ETL(Extract, Transform, Load)概念为主。这一时期的主要任务是从客户的生产环境中同步各种生产系统产生的业务过程数据,例如ERPCRM等。这些数据通常存储在关系数据库中,并通过专业的ETL工具进行抽取和同步,最终进入数据仓库,用于BI报表和统计分析。而这个时期代表性的ETL工具包括Informatica、Talend和Kettle,Kettle则是这个时期用得比较多的开源工具。随着分布式技术的流行,如Hadoop和MPP。

2024-08-02 10:53:12 561

原创 成为Apache SeaTunnel贡献者的N种方式

每个 Github 的仓库下都会有一个项目独立的 issue 板块。在这个板块里面,大家可以提出自己的问题,也可以去和大家讨论 SeaTunnel 是否要添加一些特性。而且,这是一个可以汇报 bug 的地方。开源社区通常会要求你在提交代码合并的请求前,先去创建一个 issue。这是一个好的 习惯,就像是我们抓贼要先立案,逮捕要先有逮捕令。创建 pull request 之前先创建 issue , 然后把 pr 关联到我们创建的 issue 上, 让每一次改动,都有据可查。

2024-07-30 14:18:29 412

原创 白鲸开源CEO郭炜荣获「2024中国数智化转型升级先锋人物」称号

郭炜,被誉为“郭大侠”,是白鲸开源的CEO。2024年7月24日,由数据猿主办,IDC协办,新华社中国经济信息社、上海大数据联盟、上海市数商协会、上海超级计算中心作为支持单位,举办“数智新质·力拓未来 2024企业数智化转型升级发展论坛——暨AI大模型趋势论坛”数据猿“年中·特别策划季——数智化转型升级”主题策划活动。在这场备受瞩目的盛会上,《2024中国企业数智化转型升级先锋人物》等六大榜单重磅揭晓,白鲸开源CEO郭炜荣获“2024中国数智化转型升级先锋人物”称号,成为业界关注的焦点。

2024-07-26 14:42:10 450

原创 使用Apache SeaTunnel进行二次开发的实践分享

在metrics中,可以通过context对象获取MetricsContext。同样地,在事件系统中,我们可以获取EventListener,然后通过它注册和处理自定义事件。我们提供了对应的接口EventHandler,它是一个SPI实现。用户可以实现自己的handler,然后将其放到lib目录下,或者打包到应用中。有了这个handler之后,Master节点会发现所有的EventHandler,并调用它们的handle方法。具体的事件处理逻辑由实现的handler决定。多种启动方式。

2024-07-25 18:07:05 1115

原创 简化数据流:Apache SeaTunnel实现多表同步的高效指南

综上所述,Apache SeaTunnel多表同步技术具有高效、实时、可靠和灵活的特点,在企业的数据同步领域发挥着重要作用。借助Apache SeaTunnel多表同步功能,企业能够更好地实现不同系统和数据库之间数据的无缝流转,提升数据管理和利用的效率,为业务发展提供有力支持。希望本文能够帮助读者更好地了解和应用Apache SeaTunnel多表同步,从而为企业数据同步带来更多可能性。本文由白鲸开源科技提供发布支持!

2024-07-23 16:26:59 1042

原创 如何基于 Apache SeaTunnel 同步数据到 Iceberg

是一个分布式、高性能、易扩展、用于海量数据(离线&实时)同步和转化的开源数据集成平台, 支持spark、flink 及自研 Zeta 引擎,有庞大的用户社群.connector-Iceberg 是专门为Iceberg引擎开发的数据同步组件, 主要为了方便SeaTunnel 用户能更加友好的使用Iceberg来构建企业级数据湖仓。

2024-07-18 17:01:17 1149

原创 【用户投稿】使用 SeaTunnel 进行 HTTP 同步到 Doris 实战经验分享

由于我司的项目中需要接入不同的数据源的数据到数仓中,在选择了众多的产品中最后选择了Apache SeaTunnel,上面的source配置的schema中的id,接口返回的实际类型是字符串类型,但是是雪花算法的全数字类型,所以使用。目前我这边使用的接口,暂时没有接口认证,如果需要接口认证的方式接入数据,再做讨论及测试。的区别就在于job执行的环境不同,conf使用的是。使用的id作为主键,Doris要求主键列类型。话不多说,先贴最终的运行文件,由于我使用的。以上是我的一些经验分享,希望对大家有帮助!

2024-07-18 16:52:55 949

原创 Apache SeaTunnel——OLAP 引擎的数据动脉

本文将分享如何利用 Apache SeaTunnel 将各个业务系统的数据同步到 OLAP 引擎。1. Apache SeaTunnel 项目介绍2. Apache SeaTunnel 核心功能3.SeaTunnel 在 OLAP 场景下的应用4. 社区近期计划5. WhaleTunnel 产品特性6. 问答环节分享嘉宾|高俊 白鲸开源科技有限公司 架构师编辑整理|安徽大学 刘金辉内容校对|李瑶出品社区|DataFun项目介绍**1. 项目定位——EtLT 时代的新一代数据集成平台。

2024-07-18 16:42:24 1427

原创 你要的高效方案!基于Apache SeaTunnel快速集成SAP进入Redshift

本文深入探讨了Apache SeaTunnel及其商业版可视化数据同步平台WhaleTunnel在数据整合领域的应用,特别是如何高效地将SAP系统中的数据同步到Amazon Redshift。通过技术介绍、操作流程、性能对比以及实际案例分析,本文为企业介绍了一种快速、可靠的数据整合解决方案。基于Apache SeaTunnel和WhaleTunnel,白鲸开源为企业提供了一个高效、可靠的数据整合解决方案。通过本文的技术介绍和案例分析,希望能够帮助更多企业优化其数据处理流程,提升数据整合效率。本文由。

2024-07-16 11:57:20 1075

原创 你要的高效方案!基于Apache SeaTunnel快速集成SAP进入Redshift

本文深入探讨了Apache SeaTunnel及其商业版可视化数据同步平台WhaleTunnel在数据整合领域的应用,特别是如何高效地将SAP系统中的数据同步到Amazon Redshift。通过技术介绍、操作流程、性能对比以及实际案例分析,本文为企业介绍了一种快速、可靠的数据整合解决方案。基于Apache SeaTunnel和WhaleTunnel,白鲸开源为企业提供了一个高效、可靠的数据整合解决方案。通过本文的技术介绍和案例分析,希望能够帮助更多企业优化其数据处理流程,提升数据整合效率。本文由。

2024-07-16 11:56:49 656

原创 互联网银行每日2TB数据量,Apache SeaTunnel集成应用轻松搞定!

SeaTunnel基本支持了我们当前对异常数据集成的支持,主要集中在数据应用端,后续需推广对数据采集支持,提升数据管道的整体效率;SeaTunnel对批量数据采集的应用待完善,尤其是针对分库分表的支持。调度系统侧则需要增加按标志(数据库标志、文件标志等)调度能力的支持;SeaTunnel数据集成采集metrics数据完善;SeaTunnel数据集成并行度优化(尤其针对ES写入优化)。

2024-07-08 16:53:29 943

原创 社区6月月报 | Apache SeaTunnel重要更新与优化记录

各位热爱Apache SeaTunnel的小伙伴们,社区6月份月报来啦!这里将记录Apache SeaTunnel社区每月的重要更新,欢迎关注。

2024-07-08 16:48:08 967

原创 8分钟带你快速了解Connector/Catalog API的核心设计

Apache SeaTunnel 是一个高效、易用的数据集成工具,支持多种数据源和计算引擎。本文首先介绍 SeaTunnel 的背景和设计目标,接着详细解析其架构演变和工作流程,重点探讨 SeaTunnel Connector 和 Catalog API 的设计与实现。最后,本文展望了 SeaTunnel 的未来发展方向,旨在帮助读者全面理解和应用这款优秀的开源工具。大家好,我是周尧,Apache SeaTunnel 的 committer。

2024-07-06 11:44:47 836

原创 解决SeaTunnel 2.3.4版本写入S3文件报错问题

在使用Apache SeaTunnel时,我遇到了一个写入S3文件的报错问题。通过深入调试和分析,找到了问题所在,并提出了相应的解决方案。本文将详细介绍报错情况、参考资料、解决思路以及后续研究方向,希望对大家有帮助!

2024-07-04 21:44:03 526

原创 Apache SeaTunnel社区首位学生Committer诞生!

刚开始对于代码并不了解,也没有同步领域的相关知识,最初参与较为简单的文档修改工作,逐步深入到代码层面,开始解决社区中的一些issue,最后自己也可以开发并负责部分模块。这位来自西安交通大学软件工程专业的同学从较为简单的文档修改工作,逐步深入到代码层面,到最后独立负责开发模块,为Apache SeaTunnel项目的发展添砖加瓦的同时,他本人也在这份独特的开源经历加持下,毕业即顺利找到一份自己满意的工作。Committer在社区中的角色是多面的,既是是项目的贡献者,也是项目的维护者。采访对象 | 陈炳烨。

2024-07-04 15:19:02 421

原创 WhaleStudio 2.6正式发布,WhaleTunnel同步性能与连接器数量再创新高!

在这个数据驱动的大模型时代,数据集成的作用和意义愈发重要。数据不仅仅是信息的载体,更是推动企业决策和创新的关键因素。作为全球最流行的批流一体数据集成工具,WhaleTunnel随着WhaleStudio 2.6版本正式发布,带来了多项功能增强和新特性,性能大幅提升,连接器和功能方面也有大量更新。上周,关于数据调度平台WhaleScheduler的更新状况在中已有介绍,点击链接了解详情。

2024-07-01 14:28:17 753

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除