自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 数据流动新时代,Hive 的实时同步技术探索

最近对于全周期数据流动进行了初步探索,打通了Hive 目标端的实时同步,为实时数仓的构建提供了支持,这篇文章简要做下分享。

2024-03-01 15:55:06 817 1

原创 如何把全球各地数据实时汇聚到数据中心

CloudCanal近期增强了数据汇聚防重能力,消除各个来源数据表名冲突主键/唯一键约束冲突的可能性。常用虚拟列添加指定虚拟列为对端表主键对端表名分级元数据拼接可视化操作,无需写自定义代码本文简要介绍上述特性,并使用 MySQL -> StarRocks 作为示例进行能力演示。本文主要介绍CloudCanal数据防重能力,降低数据汇聚场景各个来源数据表名冲突、主键/唯一键约束冲突的概率,从而让用户更加便捷地落地在线数据应用。

2024-02-02 12:54:47 1546

原创 如何利用现代化数据栈高效处理地理信息数据

地理信息数据的定义主要来自于我们熟知的星球——地球。我们知道地球表面是一个凸凹不平的表面,是一个近似的椭球体。以海平面为参照已知最高点和最低点之间有接近 2 万米的差距。珠穆朗玛峰,8848.86米含冰层马里亚纳海沟,相对海平面深10909米即便是海平面也会在月球潮汐引力的作用下变化着,更不要提气候变化导致的海平面升高。因此要想找到一个确切的数学模型来表示地球还是挺困难的一件事。于是人们以北极南极为两个定点,将地球按照这个轴线进行旋转。

2024-02-02 12:44:28 983

原创 一款 StarRocks 可视化建表和数据编辑的神器

通过深入探讨 StarRocks 的明细模型,我们更全面地了解了这一高效数据库的设计思想和应用场景。从排序键的妙用到与 MySQL 的比较,我们希望读者通过本文能够更好地理解和应用 StarRocks 的明细模型。CloudDM 作为可视化工具,进一步简化了表的创建和数据操作步骤,为用户提供了更便捷的数据分析体验。相信通过这篇文章,可以帮助读者对 StarRocks 的明细模型有了更深入的认识。

2024-01-19 17:05:44 793 1

原创 解决 PostgreSQL 同步到 ES 后时间类型少了 8 小时

在源端,我利用 PostgreSQL(PG)的 Write-Ahead Logging(WAL)日志来实现实时同步,将 WAL 转换为 ES 的相关写入操作。在 Kibana 设置中查看后,发现其设置为 UTC,即不会默认进行任何时区转换,因此我们推断问题出现在 SYNC 程序的时间处理中。风险就出在这里,如果系统安装时时区未正确设置,将导致程序获取的默认时区与预期不符,从而引发异常。然而,在将数据写入 ES 后,我们却发现 Timestamp 类型的数值少了 8 个小时。后,时间减少了 8 小时。

2024-01-19 13:40:07 435 1

原创 基于触发器实现 Sap Hana 实时数据同步

基于触发器实现 Sap Hana 实时数据同步,简介 SAP HANA 是由SAP开发的一款内置列式数据库的系统平台,除内置数据库以外,还具有高级分析功能......

2024-01-18 20:03:17 1982 1

原创 深入浅出 Canal 数据同步中的时区问题

在 MySQL 实时数据同步领域,Alibaba 的 Canal 工具无疑在数据同步方面发挥着重要的作用。在我的日常工作中,我经常使用 Canal 处理与大数据相关的数据同步任务。然而,正如使用任何开源项目一样,Canal 也存在一些使用上的注意事项和挑战。因为 Canal 是个开源项目,所以你在使用一个开源项目时,就务必要接受其的不完美性;同时,也不能一味地等待社区的 Bug 修复,就如我的上篇文章阐述的一样(参与 GitHub 开源项目 Canal:从 Bug 修复到 Pull Request。

2024-01-18 00:06:11 918 1

原创 参与 GitHub 开源项目 Canal:从 Bug 修复到 Pull Request

GitHub是开发者接触最多的平台之一,最初我对 GitHub 并不理解,它不仅是一个代码仓库,还是无数开源软件社区的承载者。我们是社区中的受益者,也可以回馈社区。以上就是我对于如何参与 GitHub 的思考和实际操作,希望这篇文章能够让您更好地理解和应用 GitHub。

2024-01-16 12:03:52 411 1

原创 Debezium 之旅:数据同步新境界,数仓同步一网打尽

Debezium 是一个开源的数据订阅工具,它可以捕获数据库的 CDC 变更数据发送到 Kafka。本文以 MySQL -> Kafka -> Starrocks 为例,来演示 Debezium 同步数据到数仓的能力,并探讨如何构建一条稳定、高效的数据同步链路。

2023-12-26 22:21:44 152

原创 解决 Elasticsearch 8.x Java API 中 Update 写入 null 值无效的问题

ES 是一个开源的分布式搜索和分析引擎,它可以帮助用户在大规模数据集中快速、准确地搜索、分析和可视化数据。ES 可以处理各种类型的数据,包括结构化、半结构化和非结构化数据,使其非常适用于大数据应用场景。本文将详细介绍 Elasticsearch Java API 中 Update 写入 null 值无效的问题,以及如何排查、解决此类问题,同时分享笔者的一些反思。本文介绍了在 Elasticsearch 8.x Java API 中 Update 写入 null 值无效的问题,并提供了一种解决方案。

2023-07-02 12:19:51 418 2

原创 一款纯 JS 实现的轻量化图片编辑器

无框架依赖的、轻量化的、低代码的图片处理工具; 支持拖拽添加画笔、文字、矩形、圆形、箭头、线条、图像的添加; 动态配置; 一键复制, 处处可用.

2022-10-12 19:32:54 1486 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除