自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(277)
  • 收藏
  • 关注

原创 基于Apache SeaTunnel构建CDC数据同步管道

Apache SeaTunnel是一个数据集成开发平台,其发展经历了几个重要阶段:ETL时代(90年代):面向结构化数据库的数据同步,用于构建数据仓库。MPP和分布式技术流行:使用技术如Hive进行数据仓库的构建。此阶段主要使用mapreduce程序进行数据搬运和转换。数据湖技术流行:重视数据集成,强调先同步数据至数据湖仓储,再进行业务面向的转换和设计。CDC,即变更数据捕获,是一种捕获数据库变更事件(如插入、更新、删除)的技术。

2023-12-19 12:08:21 1792

原创 数据同步工具调研选型:SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品,支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据,已应用于数百家企业生产,也是首个由国人主导贡献到 Apache 基金会的数据集成顶级项目。SeaTunnel 主要解决数据集成领域的常见问题:数据源多样:常用的数据源有数百种,版本不兼容。随着新技术的出现,出现了更多的数据源。用户很难找到能够全面快速支持这些数据源的工具。复杂同步场景。

2023-11-14 10:54:43 6012 7

原创 SeaTunnel毕业!首个国人主导的数据集成项目成为Apache顶级项目

这是首个由国人主导并贡献到 ASF 的大数据集成领域的顶级项目,这一里程碑的达成标志着 SeaTunnel 在开源软件开发领域的突破,并为其在技术、社区合作和开放创新方面的卓越表现获得了广泛认可。

2023-06-01 14:54:13 4427

原创 【Gartner权威解答】:合格CTO必懂的开源软件十大热点问题

技术创新领导者可以通过开源软件(OSS)推动创新、节省成本并提升灵活性。然而,若想真正的实现规避风险并提升业务价值,而不仅仅是炒作,优秀的管理和治理至关重要。

2025-06-11 17:18:27 626

原创 如何将SeaTunnel MySQL-CDC与Databend 高效整合?格式与方案全解析

本文将聚焦分析 SeaTunnel 中 MySQL-CDC 插件及其 Sink 输出的数据格式,并进一步探讨在实际场景中将 SeaTunnel 与 Databend 进行集成的可行性与实现路径。

2025-06-11 17:16:49 749

原创 多源多表写入、数据格式增强,SeaTunnel 2.3.11 重磅更新来了!

我们很高兴地宣布 Apache SeaTunnel 2.3.11 正式发布!

2025-06-05 15:03:34 620

原创 【异常总结】SeaTunnel集群脑裂配置优化方法

会根据该参数中该参数和历史回收耗时来计算本次要回收多少Region才能耗时200ms,假如回收了一部分远远没有达到回收的效果,G1还有一个特殊处理方法,STW后进行回收,然后恢复系统线程,然后再次STW,执行混合回收掉一部分Region,‐XX:G1MixedGCCountTarget=8 (默认是8次),反复执行上述过程8次。eg:假设要回收400个Region,如果受限200ms,每次只能回收50个Region,反复8次刚好全部回收完毕,避免单次停顿回收STW时间太长。该检测器默认处于禁用状态。

2025-05-27 18:35:29 782

原创 自然语言×数据集成新范式:SeaTunnel MCP深度解读 | 附视频讲解

此前,社区推出一篇文章《Apache SeaTunnel MCP Server:让AI成为你的ETL助手》介绍了即将推出的SeaTunnel MCP Server 能力,受到了大家的热烈反响。为了让大家更加深入地了解这个项目,社区又邀请到了该项目的核心开发者在线上 Meetup 上通过视频演示进行了长达十多分钟的细节展示。本文将此次活动整理成文字,带领大家再来深度了解一下 SeaTunnel MCP 的设计理念、架构演进及未来规划,适合对智能数据集成与大模型交互感兴趣的技术开发者阅读。

2025-05-27 18:24:06 701

原创 一招解决SeaTunnel Excel中无法将数字类型转换成字符串类型的问题 | 附源码打包

针对SeaTunnel处理Excel数字类型强转为字符串时导致的类型异常,本文将详解如何通过修改源码,实现数字类型到数据库字符串字段的兼容推送,并通过Maven打包部署修复后的代码。

2025-05-27 18:16:40 293

原创 4月报 | SeaTunnel支持TDengine的多表Sink功能

在本月的众多更新中,最令人关注的一项新特性是——TDengine 多表 Sink 功能的支持(由 @jia17 提交)。这一功能的引入,标志着 SeaTunnel 在面向时序数据库的数据写入能力上迈出了关键一步。

2025-05-27 18:14:32 768

原创 实战案例分享:如何基于Apache SeaTunnel全方位进行高效二次开发

使用Apache SeaTunnel进行二次开发的实践分享

2025-05-19 18:23:58 659

原创 Java资源管理与防止泄漏:从SeaTunnel源码看资源释放

资源管理是 Java 开发中常被忽视却至关重要的一环。本文从 SeaTunnel 案例出发,探讨 Java 中如何正确管理资源,防止资源泄漏。

2025-05-19 18:20:42 401

原创 WhaleTunnel 信创数据库适配能力全景图:打通国产数据生态的最后一公里

随着国产化替代进程不断推进,信创数据库生态逐渐形成“百花齐放”的局面。然而,对于企业来说,如何在异构数据库间实现高效、稳定的数据同步与集成,仍是一大挑战。随着国产化替代进程不断推进,信创数据库生态逐渐形成“百花齐放”的局面。然而,对于企业来说,如何在异构数据库间实现高效、稳定的数据同步与集成,仍是一大挑战。

2025-05-14 15:58:43 642

原创 重磅预告 | Apache SeaTunnel接入MCP,即将解锁模型上下文协议超能力!

你是否好奇,大模型和数据集成平台能擦出怎样的火花?

2025-05-14 15:50:15 280

原创 他为SeaTunnel写下10+高质量PR,还把开源带进了公司生产线!

最初是为了将 Elasticsearch 中的存量数据导出到其他存储系统。

2025-05-14 15:48:10 387

原创 SeaTunnel二次开发进阶:企业级复杂场景下的亿万级数据处理与智能容错机制

随着数据来源的不断复杂化及业务需求的快速演进,通用的数据集成框架在实际落地过程中往往面临诸多挑战:数据结构不规范、字段缺失、敏感信息混杂、数据语义不清等问题频繁出现。为了更好地应对这些复杂场景,某上市网络安全龙头企业基于 Apache SeaTunnel 进行了二次开发,构建了一套可扩展、易维护且具备复杂场景的数据处理与智能容错机制。本文将围绕实际功能扩展与设计理念,全面介绍相关技术实现。

2025-05-08 16:07:01 595

原创 SeaTunnel 2.3.9同步Oracle数据至Doris出现乱码?别慌,这么做

Oracle 字符集为 ASCII,如果想要同步数据到 Doris,就会出现中文乱码问题。那么出现这个问题该怎么办呢?实际上有办法解决。

2025-04-29 10:32:11 471

原创 从架构原理到落地实践:Apache SeaTunnel×Cloudberry数据集成全解读

本文将从数据集成的挑战谈起,深入解析 SeaTunnel 的设计理念与架构演进,并结合其在 Cloudberry 数据库中的实际集成应用,探讨未来面向高性能场景的扩展方向。

2025-04-29 10:28:26 1355

原创 Apache SeaTunnel 2025年3月份社区月度报告新鲜出炉!

各位热爱 Apache SeaTunnel 的小伙伴们,SeaTunnel 社区3月份月报来啦!刚加入社区的小伙伴们注意了!Apache SeaTunnel 正在迅猛发展,加入我们一起参与贡献,这将有利于提升数据同步的高可扩展性、高性能及高可靠性。

2025-04-23 15:19:11 1054

原创 万字长文 | Apache SeaTunnel 分离集群模式部署 K8s 集群实践

本文着重介绍了如何以推荐的分离集群模式(Separated Cluster Mode)部署k8s集群的实践,总结下来,部署过程主要包含以下步骤:准备 Kubernetes 环境确保已搭建并运行一个可用的 Kubernetes 集群,并安装所有必要的组件。构建 SeaTunnel Docker 镜像如果没有二次开发需求,可直接使用官方提供的镜像。否则,在本地编译打包后,编写 Dockerfile 并构建 SeaTunnel 镜像。配置Headless Service和Hazelcast集群。

2025-04-22 16:47:56 1045

原创 做到真正0丢失、0重复:Apache SeaTunnel 实现万亿级数据一致性全解密

Apache SeaTunnel通过精心设计的三维一致性架构,成功解决了企业级数据同步中最关键的数据一致性问题。这种设计既支持高吞吐量的批量数据处理,也保障了实时增量同步的精确性,为企业数据架构提供了坚实基础。端到端一致性:从数据读取到写入的全链路保障故障恢复能力:即使在极端条件下也能恢复并继续同步灵活的一致性级别:根据业务需求选择适当的一致性强度可验证的一致性:通过多种机制验证数据完整性。

2025-04-17 21:40:13 868

原创 欢迎 Apache SeaTunnel 新晋 Committer 王超

请您简单介绍一下自己,包括职业背景、当前的工作以及加入 Apache SeaTunnel 社区的起点。您的全名:王超当前职位/角色:后端开发工程师主要技术方向:主要聚焦在数据分片、数据处理以及开源技术的研发领域加入SeaTunnel社区的时间:2024年5月最初是在工作项目中寻找更高效数据传输和处理方案去替代现有的方案,从而了解到Apache SeaTunnel。项目需求促使我深入调研,进而被其插件化架构和灵活的实现方式所吸引,从而开启了参与和贡献的旅程。

2025-04-17 15:23:56 693

原创 CommunityOverCode Asia 2025议题征集倒计时,DataOps 分论坛等你发声

2025 年 7 月 25 日至 27 日,Apache 软件基金会亚洲年度峰会将在中国北京海淀区中关村国家自主创新示范区会议中心举办举办。这场开源盛会由官方主办,汇聚全球 Apache 顶级项目及其核心贡献者,是整个开源圈不可错过的年度盛典!其中,专注于数据集成、数据开发、数据治理等议题的将聚焦前沿数据技术与实践,是展示企业数据基础设施建设、工程能力、开源生态融合的绝佳舞台!🎤这不仅是一次面向全球的亮相机会,更是向 Apache 社区展示你与 SeaTunnel 实战经验的最佳时机。

2025-04-17 15:21:17 932

原创 Apache SeaTunnel & Amazon Bedrock 助力生成式AI 应用规模化生产实践

本文通过 Apache SeaTunnel + Amazon Bedrock + Amazon OpenSearch 的组合,构建了一套高可扩展性、低耦合的语义搜索数据处理链路,成功实现了从结构化/非结构化文本数据到向量检索系统的全流程集成。松耦合架构设计:SeaTunnel 的插件式 Transform 和 Sink 机制,使得模型调用与向量写入逻辑保持解耦,方便后续替换嵌入模型或变更底层向量数据库;

2025-04-10 11:31:08 1139

原创 【同步教程】基于Apache SeaTunnel从MySQL同步到MySQL——Demo方舟计划

SeaTunnel 支持多种部署方式:使用 Seatunnel 自带引擎(Zeta)作为 Spark / Flink 作业运行。

2025-04-09 09:59:25 1321

原创 【双周会】就在今晚,Apache SeaTunnel Community Call 会议通知

会议主题:SeaTunnel Community Meeting(https://github.com/apache/seatunnel/issues/9100)点击提交您的议题:https://github.com/apache/seatunnel/issues/9100。:如果您在使用SeaTunnel中遇到任何问题,会议将为您提供一个面对面的互动机会。我们鼓励大家(任何人)提前提出议题与问题,确保会议内容更贴近社区成员的需求。请大家在会议链接中准时加入,并在议题收集链接中提交您关注的内容或问题。

2025-04-08 16:34:27 284

原创 Apache SeaTunnel MCP Server:让AI成为你的ETL助手

Apache SeaTunnel MCP Server,可以将 SeaTunnel 的接口文档提供给 Cursor 等支持 AI 编程的 IDE,或其他支持 MCP 的 AI 工具。是一种基于MCP协议的服务器,旨在为大型语言模型(LLM)提供与外部数据源和工具的无缝集成。它通过标准化AI系统与数据源的交互方式,帮助模型获取更丰富的上下文信息,从而生成更准确、更相关的响应。‌。

2025-04-02 10:02:38 493

原创 Apache SeaTunnel 2.3.10 正式发布 —— 全新功能与多项改进,助力数据集成再升级!

Apache SeaTunnel 2.3.10 版本在功能、性能和稳定性上都实现了显著提升,我们相信这些改进能够为您的数据集成和大数据处理工作带来更多便利。社区成员和贡献者的辛勤付出!感兴趣的朋友可以下载最新版试用,体验全新升级的Apache SeaTunnel,让我们一起推动数据集成技术的持续进步!

2025-04-01 11:27:31 939

原创 PB 级大数据新势力!Apache SeaTunnel 亮相 Cloudberry 杭州 Meetup(附报名)

在大数据分析和 AI/ML 时代,高效、稳定的数据同步与集成成为企业数据架构中的关键一环。Apache SeaTunnel 作为 Apache 顶级项目,专注于实时 & 离线数据集成,已广泛应用于数据仓库、数据湖、AI 数据处理等场景。

2025-03-28 11:17:51 849

原创 Apache SeaTunnel 用户征稿计划启动!分享数据集成实践经验,赢社区荣誉!

已经被广泛应用于各类数据同步、ETL 及数据仓库建设场景。我们非常清楚的知道,社区的发展离不开每一位开发者和使用者的经验分享!为了促进经验交流,鼓励社区用户分享Apache SeaTunnel 在生产环境中的使用实践经验,我们正式发起。Apache SeaTunnel 社区期待你的投稿!💡 你的实践经验,或许正是其他开发者急需的参考!你的文章将有机会被推荐到官方渠道,获得社区曝光及荣誉奖励!如果你有丰富的使用经验、独特的技术见解,或者在。📢 加入社区,一起构建更强大的开源数据集成生态!

2025-03-28 11:03:20 475

原创 Apache SeaTunnel同步MySQL到Doris的优化策略

在数据仓库建设过程中,数据同步是一个关键环节。Apache SeaTunnel作为一个高性能的分布式数据集成工具,被广泛用于将MySQL数据同步到Doris等OLAP数据库。然而,如何优化这个同步过程,提高效率并减少资源消耗,是每个数据工程师都需要面对的挑战。本文将结合实际配置文件,详细探讨Apache SeaTunnel同步MySQL到Doris的优化策略。

2025-03-25 10:44:29 1265

原创 Apache SeaTunnel脚本升级及参数调优实战

最近作者针对实时数仓的Apache SeaTunnel同步链路,完成了双引擎架构升级与全链路参数,希望本文能够给大家有所启发,欢迎批评指正!Apache SeaTunnel 版本 :2.3.9Doris版本:2.0.6。

2025-03-20 12:26:19 697 1

原创 如何通过 Apache SeaTunnel 实现 MySQL 到 OceanBase的数据迁移同步

本文来源于 OceanBase 数据库官方博客,目前 Apache SeaTunnel 2.3.9 已支持本文提到的所有功能,故原文2.3.7已全部修改为2.3.9。

2025-03-17 20:23:41 769

原创 【实操回顾】基于Apache SeaTunnel从MySQL同步到PostgreSQL——Demo方舟计划

文章作者:马全才 奥克斯集团大数据工程师编辑整理:国电南自 赵鸿辉 白鲸开源 曾辉本文详细演示了如何通过实现 **MySQL **到的全量数据同步。话不多说,我们开始学习MySQL同步到PostgreSQL场景:本文涉及到所有的配置文件可关注公众号回复关键词“Demo 01”获取。

2025-03-13 18:54:36 1037

原创 【用户投稿】手把手基于Apache SeaTunnel从PostgreSQL同步到Doris

本文详细演示了如何通过实现到的全量数据同步,涵盖从环境部署到生产验证的完整闭环,请各位小伙伴批评指正!

2025-03-11 15:23:08 489

原创 2025年 Apache SeaTunnel 2月份社区月报速递

各位热爱 Apache SeaTunnel 的小伙伴们,SeaTunnel 社区月报来啦!SeaTunnel 正在迅猛发展,这将有利于提升数据同步的高可扩展性、高性能及高可靠性。

2025-03-09 18:52:10 953

原创 Apache SeaTunnel 人物专访 | 张东浩:从使用者到Committer的开源历程

请您简单介绍一下自己,包括职业背景、当前的工作以及加入 Apache SeaTunnel 社区的起点。您的全名:张东浩当前职位/角色:中电信翼康公司大数据架构师主要技术方向:数据湖、数据集成加入SeaTunnel社区的时间:2024年2月在负责公司数据平台建设时,我们面临多源异构数据的高效集成需求。调研中发现SeaTunnel的插件化架构和轻量级设计非常适合解决此类问题。通过实际部署和使用,逐渐被其灵活性和性能所吸引,最终决定深入参与社区贡献。

2025-03-06 08:31:44 855

原创 写Oracle表耗时25分钟缩短到23秒——SeaTunnel性能优化

本文主要给大家介绍JDBC Source批处理任务动态切分优化,希望大家批评指正JDBC Source 如果配置了table_path和,引擎会对数据进行动态切分,可以通过分析样本数据优化切分区间,规避数据倾斜问题。目前发现任务即使配置了,动态切分算法仍然会把数据进行全表切分,在从大表中读取少量数据的场景下,任务切分阶段会耗费大量的时间,需要修改下面相关的流程进行优化。下面所有出现SQL语句的地方均以MySQL为例子进行说明,具体不同的数据源有不同的子类方法overwrite实现。

2025-03-03 20:47:35 632

原创 【万字长文】开源之播对话白鲸开源CEO郭炜--乐观主义的开源精神走得更远

本文为白鲸开源科技CEO郭炜1小时深度访谈全记录来源于:开源之播」·Episode15:对话郭炜–乐观主义的开源精神走得更远大家好,我是郭炜,开源圈的“郭大侠”。作为 Apache 基金会的成员,我曾参与并孵化了多个开源项目,如早期的,以及(中文名:海豚调度)和。这些都是 Apache 的顶级项目。现在,我创办了,致力于通过开源打造中国的开源商业公司。今天很高兴与大家分享我的一些经历与思考。去年,我写了一篇文章,标题非常直白:“”——这篇文章的确是非常及时的。

2025-02-26 16:22:29 703

原创 Apache SeaTunnel 构建实时数据同步管道(最新版)

首先,在数据集成发展早期,数据处理采用的是 ETL 模式,也就是从抽取(Extract)、经过转换(Transform)、再加载到目标(Load)的过程。主要面向结构化数据,数据主要来自于传统的 SQL Server、Oracle、MySQL 等数据库,以及结构化的系统,如 ERP、CRM 等。使用专业的数仓工具,或者一些大型的 DB 来完成存储的任务。在这一个阶段比较有代表性的数据集成工具有 Informatica、Kettle、Talend 等。

2025-02-25 19:08:34 1429

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除