自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(113)
  • 资源 (1)
  • 收藏
  • 关注

原创 Python编程实践 - 多线程

本文介绍在Python中如何实现多线程,包含如下要点:1. 面向对象的继承,实现自定义的多线程类2. 队列的使用,包括队列的初始化、赋值、取数

2022-05-28 17:33:47 312

原创 python环境安装和配置 - 使用Anaconda3

本文介绍通过Anaconda3安装Python开发环境,并在Windows上如何配置Python环境变量

2022-05-11 17:22:08 2302

原创 Python编程实践 - 使用模板生成配置文件

本文介绍如果通过模板文件动态生成配置文件,使用string.Template(), safe_substitute()

2022-05-07 18:32:11 1773

原创 Python 制作可安装包

本文介绍如何将Python的源码打包,制作成可安装包,用于上线部署或者组织内的其他成员使用

2022-04-28 05:00:00 2185

原创 Python pip通过requirements.txt 文件快速安装依赖

本文介绍如何使用pip导出当前Python环境的包到requirements.txt文件,并在一个新的环境中快速的安装Python包

2022-04-27 05:15:00 5567

原创 Python 编程实践 - 读取配置文件

本文介绍了 Python 如何使用 configparser解析配置文件

2022-04-26 05:15:00 297

原创 Flink CDC 系列(11)—— MySQL 数据入湖 Hudi,流式查询Hudi

本文如何介绍通过Flink CDC增量读取MySQL binlog数据写入Hudi,并以增量的方式读取Hudi的数据

2022-04-25 05:00:00 1084

原创 PyFlink 安装和使用

本文介绍了 PyFlink 在 Ubuntu 20.04 的安装,通过一个简单的 wordcount 案例介绍了 PyFlink 的使用

2022-03-27 12:06:00 6289

原创 Flink CDC 系列(10)—— MySQL 数据入湖 Hudi

本文介绍了Flink CDC 读取 MySQL 数据,通过Flink SQL 写入到 Hudi 的过程,并通过实战案例演示了对 MySQL 的 Insert/Update/Delete 操作在 Hudi 的还原。

2022-03-26 05:00:00 1240 1

原创 hudi-flink 模块源码编译

拉取源码本文以 0.10.1 的源码为例$ git clone -b release-0.10.1 https://github.com/apache/hudi.gitCloning into 'hudi'...remote: Enumerating objects: 247886, done.remote: Counting objects: 100% (29939/29939), done.remote: Compressing objects: 100% (4148/4148), done

2022-03-25 05:00:00 1278

原创 Flink CDC 系列(9)—— MySQL 数据入湖 Iceberg,Flink 流式读取 Iceberg

本文介绍了Flink CDC 读取MySQL数据实时写到 Iceberg,Flink SQL 以Streaming的方式读取Iceberg的数据。

2022-03-24 05:30:00 2821 1

原创 Flink CDC 系列(8)—— MySQL 数据入湖 Iceberg

本文演示了 Flink CDC 读取 MySQL 数据,并通过 Flink SQL 写入到 Iceberg 的过程。包含了 Insert/update/delete 的操作。

2022-03-23 04:45:00 1627

原创 Flink CDC 系列(7)—— 从 MySQL 到 ElasticSearch

本文介绍了通过 Flink CDC + Flink SQL 同步 MySQL 数据到 ElasticSearch 的案例。案例包含了 Mysql 测试数据准备,ElasticSearch 安装,Flink 安装和配置, 以及Insert/Update/Delete 的操作演示。

2022-03-22 05:30:00 8278 1

原创 Ubuntu 安装和配置 postgresql

本文主要介绍在Ubuntu系统安装Postgresql;查看Postgresql运行状态;进入sql 命令行创建Postgresql用户和授权;创建数据库;修改访问IP,允许远程访问;记录历史 SQL

2022-03-21 05:15:00 5930 1

原创 Hudi 的写操作类型

本文介绍了 Hudi 的写操作类型,包括 UPSERT, INSERT, BULK_INSERT, DELETE, 并介绍了相关的应用场景

2022-03-03 05:15:00 2174

原创 什么是 Hudi Timeline (时间线)

本文介绍了 Hudi Timeline(时间线)的核心概念,Instant action, Instant time, state。并举例进行说明

2022-03-02 05:15:00 1796

原创 Apache Iceberg 源码编译 iceberg-flink-runtime Jar 文件

本文介绍了如何对 Apache Iceberg 的源码进行编译出特定版本的 iceberg-flink-runtime Jar 文件

2022-03-01 05:15:00 1209

原创 Hudi 的元数据表(Metadata Table)

使用元数据表的原因Apache Hudi 元数据表使得读取/写入操作可以获得更好的性能。使用元数据表的主要目的是为了避免 “list files” 的操作。没有元数据表的支持,在读取和写入数据时,通过文件的 “list” 操作来获取当前文件系统的视图。当数据数据集非常大时,列出所有的文件会成为性能的瓶颈,使用元数据表会预先维护文件系统的视图,如果所有文件的列表,可以避免递归地进行"list files"操作。开启元数据表情况下,进行TPCDS benchmark p50 “list” 操作的时延测试:

2022-02-28 05:15:00 2963 1

原创 Hudi 索引的选择策略

本文通过介绍三种不同的使用场景的特点,并在各自场景下选择的 Hudi 索引的类型。包括的场景有:事实表更新,事件表去重,维度表的更新。索引类型有BLOOM,SIMPLE,HBase。

2022-02-27 04:45:00 590 1

原创 Hudi 的索引机制和类型

本文介绍了 Hudi 的索引机制、索引类型(Bloom/Simple/HBase)、以及 Global索引和 Non-Global 索引

2022-02-26 04:45:00 2419 2

原创 Flink CDC 系列(6)—— Flink CDC MySQL Connector 工作机制之 Incremental Snapshot Reading

什么是Incremental Snapshot ReadingIncremental snapshot reading 是读取表块照数据的新机制。和旧的快照机制相比,有以下优点:MySQL CDC Source 支持并行读取快照数据MySQL CDC Source 在快照读取阶段,支持数据块级别的 checkpointMySQL CDC Source 不需要获取全局的读锁(FLUSH TABLES WITH READ LOCK)如果想要并行地读取快照数据,需要给每一个 reader 指定一个唯

2022-02-25 04:45:00 3073 3

原创 Flink CDC 系列(5)—— Flink CDC MySQL Connector 启动模式

本文介绍了 Flink CDC MySQL Connector 启动模式,通过参数 scan.startup.mode 设置,有效值是 initial 和 latest-offset,并介绍了这两种模式含义及使用场景

2022-02-24 05:30:00 7442

原创 Flink CDC 系列(4)—— Flink CDC MySQL Connector 常用参数表

本文对 Flink CDC MySQL Connector 的常用参数进行罗列和描述

2022-02-23 05:00:00 4208

原创 Flink CDC 系列(3)—— Flink CDC MySQL Connector 与 Flink SQL 的结合使用案例Demo

本文以案例的形式演示了 Flink CDC MySQL Connector 的使用。包括 MySQL 测试数据的准备、Flink CDC 源码编译、Flink 集群启动、Flink CDC MySQL Connector 与 Flink SQL 的结合使用。

2022-02-22 05:00:00 5427 3

原创 Flink CDC 系列(1)—— 什么是 Flink CDC

本文介绍了什么是 Flink CDC, 支持的数据源,Flink CDC 的特性,以及 Flink CDC 与 Flink 的版本对应关系

2022-02-21 06:00:00 5430

原创 Flink CDC 系列(2)—— Flink CDC 源码编译

本文介绍了 Flink CDC 源码编译的流程

2022-02-21 06:00:00 3941 4

原创 Flink SQL Client 命令行客户端

本文介绍Flink SQL Client 命令行客户端的启动和基本使用。

2022-02-20 06:00:00 1109

原创 通过 Docker 部署 Kafka 集群

本文主要介绍了如何通过 Docker 部署 Kafka 集群,包括准备docker compose yaml 文件,docker-compose 创建启动容器,以及 kafkacat 工具对 Kafka 进行操作

2022-02-20 03:00:00 2190

原创 PostgreSQL 磁盘空间清理

PostgreSQL 删除、更新、覆写的历史数据不会从磁盘中清除,久而久之,磁盘的数据越来越多造成空间不足。使用 vacuum full 可彻底释放磁盘空间

2022-02-19 06:00:00 3699 1

原创 Flink 单机部署

本文介绍了 Flink 单机部署的过程,包括 Flink 下载、JDK 下载和环境变量配置、集群启动、TopSpeedWindowing 例子

2022-02-19 03:00:00 633

原创 Apache Doris 源码编译

本文介绍了通过 docker 容器编译 Apache Doris 的方法

2022-02-18 12:47:59 829

原创 Spark SQL Json 解析函数

Spark SQL Json 解析函数 get_json_object

2022-02-18 11:39:18 1362

原创 Linux 多线程下载工具 axel 下载加速器

本文介绍了 Linux 命令行 网络下载加速器,axel, 支持多线程,断点续传;还介绍了 axel 在 Ubuntu 和 Centos 系统的安装方式,以及源码安装方式;最后介绍了 axel 命令的使用。

2022-02-18 06:00:00 3180 1

原创 Flink SQL 如何避免 JDBC Connector 维表出现 Finished 状态

本文介绍 Flink SQL 如何避免 JDBC Connector 维表出现 Finished 状态JDBC Connector 使得关系型数据库( Mysql、PostgreSQL)可以作为 Flink 主流的维表,但如果使用不当会出现 JDBC Connector Source 在运行一段时间之后出现 Finished 状态,导致 checkpoint 不能正常触发。解决方法:FOR SYSTEM_TIME AS OF PROCTIME()

2022-02-17 18:21:05 2188 1

原创 postgreSQL 笔记

本文记录了 postgreSQL 日常使用的一些命令和技巧,包含- 查看表定义- 查看自定义函数定义- 添加字段注释- 添加字段- 授权

2022-02-16 15:23:09 2409

原创 基于 Ubuntu 玩转 Hudi Docker Demo (4)—— Hive 查询 Hudi 表

本文介绍了如何使用 Hive 查询 Hudi 表。包括:CopyOnWrite 表的快照查询和增量查询MergeOnRead 表的快照查询,读优化查询和增量查询

2022-02-12 20:11:16 1287

原创 基于 Ubuntu 玩转 Hudi Docker Demo (3)—— Spark写入和查询

本文介绍 Spark 写入和查询 Hudi 表。包括写入 CopyOnWrite 和 MergeOnRead 类型的 Hudi 表。查询包括 快照查询,读优化查询,增量查询。

2022-02-11 19:20:14 1281

原创 Hudi 表的类型和查询方式

本文介绍了 Hudi 表类型以及查询类型表类型:CopyOnWrite 和 MergeOnRead查询类型:SnapshotQuery, IncrementalQuery, ReadOptimizedQuery

2022-02-11 12:58:23 2023

原创 Kafka 命令行工具 kcat/kafkacat

本文介绍Kafka 命令行工具 kcat/kafkacat , 非 JVM 的 Kafka 生成者和消费者,适用于 Kafka 0.8 及以上版本。kcat/kafkacat 可用与生产和消费数据、以及查询集群元数据信息,时间戳对应的 offset 等。

2022-02-10 22:14:53 7902 5

原创 基于 Ubuntu 玩转 Hudi Docker Demo (2)—— 测试数据写入 Kafka

本文介绍了如何通过 kafkacat 把测试数据写入到 kafka

2022-02-10 18:12:15 1549

小文件存储SeaweedFS技术指南

该文档包含以下内容: 1. SeaweedFS的架构和组件说明 2. SeaweedFS Master API 3. SeaweedFS Volume API 4. SeaweedFS Filer API 5. SeaweedFS的配置 6. SeaweedFS S3 API 7. SeaweedFS 与大数据Hadoop,Spark,Hbase,Presto的集成 8. SeaweedFS的复制和备份 9. 安全 10. 高级使用 11. 维护 该文档为英文版, 如需中文版的笔记欢迎与博主联系。

2023-05-06

大数据Spark面试题汇总

大数据Spark面试题汇总,共有79道面试题以及题目的解答 部分题目如下: 1. spark 的有几种部署模式,每种模式特点? 2. Spark 为什么比 mapreduce 快? 3. 简单说一下 hadoop 和 spark 的 shuffle 相同和差异? 5. spark 的优化怎么做? 6. 数据本地性是在哪个环节确定的? 7. RDD 的弹性表现在哪几点? 8. RDD 有哪些缺陷? 9. Spark 的 shuffle 过程? 10. Spark 的数据本地性有哪几种? 11. Spark 为什么要持久化,一般什么场景下要进行 persist 操作? 12. 介绍一下 join 操作优化经验? 13. 描述 Yarn 执行一个任务的过程? 14. Spark on Yarn 模式有哪些优点? 15. 谈谈你对 container 的理解? 16. Spark 使用 parquet 文件存储格式能带来哪些好处? 17. 介绍 parition 和 block 有什么关联关系? 18. Spark 应用程序的执行过程是什么?

2023-04-12

SeaweedFS 架构说明文档 英文版

文档对SeaweedFS的架构进行了介绍,包括: Blob Storage File Storage Remote Storage Cache FUSE Mount Object Storage Hadoop Compatable File System APIs Replication and Backup Administration Security

2023-04-08

draw.io画图工具 diagrams

支持UML、流程图、ER图等 windows版本,免安装 visio竞品

2022-01-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除