- 博客(113)
- 资源 (1)
- 收藏
- 关注
原创 Python编程实践 - 多线程
本文介绍在Python中如何实现多线程,包含如下要点:1. 面向对象的继承,实现自定义的多线程类2. 队列的使用,包括队列的初始化、赋值、取数
2022-05-28 17:33:47
312
原创 python环境安装和配置 - 使用Anaconda3
本文介绍通过Anaconda3安装Python开发环境,并在Windows上如何配置Python环境变量
2022-05-11 17:22:08
2302
原创 Python编程实践 - 使用模板生成配置文件
本文介绍如果通过模板文件动态生成配置文件,使用string.Template(), safe_substitute()
2022-05-07 18:32:11
1773
原创 Python pip通过requirements.txt 文件快速安装依赖
本文介绍如何使用pip导出当前Python环境的包到requirements.txt文件,并在一个新的环境中快速的安装Python包
2022-04-27 05:15:00
5567
原创 Flink CDC 系列(11)—— MySQL 数据入湖 Hudi,流式查询Hudi
本文如何介绍通过Flink CDC增量读取MySQL binlog数据写入Hudi,并以增量的方式读取Hudi的数据
2022-04-25 05:00:00
1084
原创 PyFlink 安装和使用
本文介绍了 PyFlink 在 Ubuntu 20.04 的安装,通过一个简单的 wordcount 案例介绍了 PyFlink 的使用
2022-03-27 12:06:00
6289
原创 Flink CDC 系列(10)—— MySQL 数据入湖 Hudi
本文介绍了Flink CDC 读取 MySQL 数据,通过Flink SQL 写入到 Hudi 的过程,并通过实战案例演示了对 MySQL 的 Insert/Update/Delete 操作在 Hudi 的还原。
2022-03-26 05:00:00
1240
1
原创 hudi-flink 模块源码编译
拉取源码本文以 0.10.1 的源码为例$ git clone -b release-0.10.1 https://github.com/apache/hudi.gitCloning into 'hudi'...remote: Enumerating objects: 247886, done.remote: Counting objects: 100% (29939/29939), done.remote: Compressing objects: 100% (4148/4148), done
2022-03-25 05:00:00
1278
原创 Flink CDC 系列(9)—— MySQL 数据入湖 Iceberg,Flink 流式读取 Iceberg
本文介绍了Flink CDC 读取MySQL数据实时写到 Iceberg,Flink SQL 以Streaming的方式读取Iceberg的数据。
2022-03-24 05:30:00
2821
1
原创 Flink CDC 系列(8)—— MySQL 数据入湖 Iceberg
本文演示了 Flink CDC 读取 MySQL 数据,并通过 Flink SQL 写入到 Iceberg 的过程。包含了 Insert/update/delete 的操作。
2022-03-23 04:45:00
1627
原创 Flink CDC 系列(7)—— 从 MySQL 到 ElasticSearch
本文介绍了通过 Flink CDC + Flink SQL 同步 MySQL 数据到 ElasticSearch 的案例。案例包含了 Mysql 测试数据准备,ElasticSearch 安装,Flink 安装和配置, 以及Insert/Update/Delete 的操作演示。
2022-03-22 05:30:00
8278
1
原创 Ubuntu 安装和配置 postgresql
本文主要介绍在Ubuntu系统安装Postgresql;查看Postgresql运行状态;进入sql 命令行创建Postgresql用户和授权;创建数据库;修改访问IP,允许远程访问;记录历史 SQL
2022-03-21 05:15:00
5930
1
原创 Hudi 的写操作类型
本文介绍了 Hudi 的写操作类型,包括 UPSERT, INSERT, BULK_INSERT, DELETE, 并介绍了相关的应用场景
2022-03-03 05:15:00
2174
原创 什么是 Hudi Timeline (时间线)
本文介绍了 Hudi Timeline(时间线)的核心概念,Instant action, Instant time, state。并举例进行说明
2022-03-02 05:15:00
1796
原创 Apache Iceberg 源码编译 iceberg-flink-runtime Jar 文件
本文介绍了如何对 Apache Iceberg 的源码进行编译出特定版本的 iceberg-flink-runtime Jar 文件
2022-03-01 05:15:00
1209
原创 Hudi 的元数据表(Metadata Table)
使用元数据表的原因Apache Hudi 元数据表使得读取/写入操作可以获得更好的性能。使用元数据表的主要目的是为了避免 “list files” 的操作。没有元数据表的支持,在读取和写入数据时,通过文件的 “list” 操作来获取当前文件系统的视图。当数据数据集非常大时,列出所有的文件会成为性能的瓶颈,使用元数据表会预先维护文件系统的视图,如果所有文件的列表,可以避免递归地进行"list files"操作。开启元数据表情况下,进行TPCDS benchmark p50 “list” 操作的时延测试:
2022-02-28 05:15:00
2963
1
原创 Hudi 索引的选择策略
本文通过介绍三种不同的使用场景的特点,并在各自场景下选择的 Hudi 索引的类型。包括的场景有:事实表更新,事件表去重,维度表的更新。索引类型有BLOOM,SIMPLE,HBase。
2022-02-27 04:45:00
590
1
原创 Hudi 的索引机制和类型
本文介绍了 Hudi 的索引机制、索引类型(Bloom/Simple/HBase)、以及 Global索引和 Non-Global 索引
2022-02-26 04:45:00
2419
2
原创 Flink CDC 系列(6)—— Flink CDC MySQL Connector 工作机制之 Incremental Snapshot Reading
什么是Incremental Snapshot ReadingIncremental snapshot reading 是读取表块照数据的新机制。和旧的快照机制相比,有以下优点:MySQL CDC Source 支持并行读取快照数据MySQL CDC Source 在快照读取阶段,支持数据块级别的 checkpointMySQL CDC Source 不需要获取全局的读锁(FLUSH TABLES WITH READ LOCK)如果想要并行地读取快照数据,需要给每一个 reader 指定一个唯
2022-02-25 04:45:00
3073
3
原创 Flink CDC 系列(5)—— Flink CDC MySQL Connector 启动模式
本文介绍了 Flink CDC MySQL Connector 启动模式,通过参数 scan.startup.mode 设置,有效值是 initial 和 latest-offset,并介绍了这两种模式含义及使用场景
2022-02-24 05:30:00
7442
原创 Flink CDC 系列(4)—— Flink CDC MySQL Connector 常用参数表
本文对 Flink CDC MySQL Connector 的常用参数进行罗列和描述
2022-02-23 05:00:00
4208
原创 Flink CDC 系列(3)—— Flink CDC MySQL Connector 与 Flink SQL 的结合使用案例Demo
本文以案例的形式演示了 Flink CDC MySQL Connector 的使用。包括 MySQL 测试数据的准备、Flink CDC 源码编译、Flink 集群启动、Flink CDC MySQL Connector 与 Flink SQL 的结合使用。
2022-02-22 05:00:00
5427
3
原创 Flink CDC 系列(1)—— 什么是 Flink CDC
本文介绍了什么是 Flink CDC, 支持的数据源,Flink CDC 的特性,以及 Flink CDC 与 Flink 的版本对应关系
2022-02-21 06:00:00
5430
原创 通过 Docker 部署 Kafka 集群
本文主要介绍了如何通过 Docker 部署 Kafka 集群,包括准备docker compose yaml 文件,docker-compose 创建启动容器,以及 kafkacat 工具对 Kafka 进行操作
2022-02-20 03:00:00
2190
原创 PostgreSQL 磁盘空间清理
PostgreSQL 删除、更新、覆写的历史数据不会从磁盘中清除,久而久之,磁盘的数据越来越多造成空间不足。使用 vacuum full 可彻底释放磁盘空间
2022-02-19 06:00:00
3699
1
原创 Flink 单机部署
本文介绍了 Flink 单机部署的过程,包括 Flink 下载、JDK 下载和环境变量配置、集群启动、TopSpeedWindowing 例子
2022-02-19 03:00:00
633
原创 Linux 多线程下载工具 axel 下载加速器
本文介绍了 Linux 命令行 网络下载加速器,axel, 支持多线程,断点续传;还介绍了 axel 在 Ubuntu 和 Centos 系统的安装方式,以及源码安装方式;最后介绍了 axel 命令的使用。
2022-02-18 06:00:00
3180
1
原创 Flink SQL 如何避免 JDBC Connector 维表出现 Finished 状态
本文介绍 Flink SQL 如何避免 JDBC Connector 维表出现 Finished 状态JDBC Connector 使得关系型数据库( Mysql、PostgreSQL)可以作为 Flink 主流的维表,但如果使用不当会出现 JDBC Connector Source 在运行一段时间之后出现 Finished 状态,导致 checkpoint 不能正常触发。解决方法:FOR SYSTEM_TIME AS OF PROCTIME()
2022-02-17 18:21:05
2188
1
原创 postgreSQL 笔记
本文记录了 postgreSQL 日常使用的一些命令和技巧,包含- 查看表定义- 查看自定义函数定义- 添加字段注释- 添加字段- 授权
2022-02-16 15:23:09
2409
原创 基于 Ubuntu 玩转 Hudi Docker Demo (4)—— Hive 查询 Hudi 表
本文介绍了如何使用 Hive 查询 Hudi 表。包括:CopyOnWrite 表的快照查询和增量查询MergeOnRead 表的快照查询,读优化查询和增量查询
2022-02-12 20:11:16
1287
原创 基于 Ubuntu 玩转 Hudi Docker Demo (3)—— Spark写入和查询
本文介绍 Spark 写入和查询 Hudi 表。包括写入 CopyOnWrite 和 MergeOnRead 类型的 Hudi 表。查询包括 快照查询,读优化查询,增量查询。
2022-02-11 19:20:14
1281
原创 Hudi 表的类型和查询方式
本文介绍了 Hudi 表类型以及查询类型表类型:CopyOnWrite 和 MergeOnRead查询类型:SnapshotQuery, IncrementalQuery, ReadOptimizedQuery
2022-02-11 12:58:23
2023
原创 Kafka 命令行工具 kcat/kafkacat
本文介绍Kafka 命令行工具 kcat/kafkacat , 非 JVM 的 Kafka 生成者和消费者,适用于 Kafka 0.8 及以上版本。kcat/kafkacat 可用与生产和消费数据、以及查询集群元数据信息,时间戳对应的 offset 等。
2022-02-10 22:14:53
7902
5
原创 基于 Ubuntu 玩转 Hudi Docker Demo (2)—— 测试数据写入 Kafka
本文介绍了如何通过 kafkacat 把测试数据写入到 kafka
2022-02-10 18:12:15
1549
小文件存储SeaweedFS技术指南
2023-05-06
大数据Spark面试题汇总
2023-04-12
SeaweedFS 架构说明文档 英文版
2023-04-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅