数据湖填坑-CSDN博客

1.环境准备1.1、flink1.12.21.1.1 编译包下载：https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.12.2/flink-1.12.2-bin-scala_2.11.tgz1.1.2 flink的部署可参考上篇：https://blog.csdn.net/weixin_49218925/article/details/1155110221.2、hudi0.9.0已发布，可直接下载hudi-flink-bundle_2

2022-02-18 11:17:10 1077 2

原创随笔 hash hash表 hashcode

hashhash是一个函数，该函数中的实现就是一种算法，通过一系列的算法，把任意长度的输入，变换成固定长度的输出，该输出就是散列值。不同的输入可能会散列成相同的输出，所以不能从散列值来确定输入值。hash表这个时候，我们就需要知道另一个东西，hash表，通过hash算法得到的hash值就在这张hash表中，也就是说，hash表就是所有的hash值组成的，有很多种hash函数，也就代表着有很多种算法得到hash值。hashcodehashcode就是通过hash函数得来的，通俗的说，就是通过某一种算

2021-10-26 15:24:01 183

原创 linux|常用的脚本：

查找某个类在哪个jar包中：#!/bin/bashls *.jar | while read jarfile;do echo "$jarfile";jar -tf $jarfile | grep " "; done#优化后的ls *.jar | while read jarfile;do jar -tf $jarfile | grep " "; if [$? -eq 0]; then echo "find class in jar:"$jarfile;fi; done...

2021-10-09 14:44:13 185

原创 linux中物理cpu、逻辑cpu以及core、vcore

2021-09-24 09:42:30 2469 2

原创 flinksql on zeppelin安装及使用

zeppelin简介 Flink SQL的默认开发方式是通过Java/Scala API编写，与纯SQL化、平台化的目标相去甚远。目前官方提供的FlinkSQL Client仅能在配备Flink客户端的本地使用，局限性很大。而Ververica开源的Flink SQL Gateway组件是基于REST API的，仍然需要二次开发才能供给上层使用，并不是很方便。鉴于有很多企业都无法配备专门的团队来解决Flink SQL平台化的问题，那么到底有没有一个开源的、开箱即用的、功能相对完善的组件呢？答案就

2021-08-11 19:23:54 599

原创 hive数据倾斜及处理案例

什么是数据倾斜数据倾斜其实是进行分布式计算的时候，某些节点的计算能力比较强或者需要计算的数据比较少，早早执行完了，某些节点计算的能力较差或者由于此节点需要计算的数据比较多，导致出现其他节点的reduce阶段任务执行完成，但是这种节点的数据处理任务还没有执行完成。数据倾斜的现象当我们在执行HiveQL或者运行MapReduce作业时候，如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。hive数据倾斜的原因1.空值产生的数据倾斜2.不同数据类型关联产生的数据倾斜3.

2021-08-05 17:27:33 1109

原创 1.安装flink-1.12.2

FLINK on YARN模式解压安装包：tar -zvxf flink-1.12.2-bin-scala_2.11.tgz /opt/修改yarn配置，设置application master重启时尝试的最大次数（cdh内有此参数，默认是2）：<property><name>yarn.resourcemanager.am.max-attempts</name><value>10</value><description&gt

2021-07-29 16:17:17 269

原创 CDH6 kafka如何彻底删除topic及数据

标题CDH6 kafka如何彻底删除topic及数据删除kafka topic及其数据，发现都会偶然出现无法彻底删除kafka的情况。本人亲测并总结了以下流程。第一步：设置 auto.create.topics.enable = false，默认设置为true。如果设置为true，则produce或者fetch不存在的topic也会自动创建这个topi。同时需要认真把生产和消费程序彻底全部停止。第二步：在CDH界面，找到kafka的配置，或者server.properties设置delete.to

2021-06-30 16:01:41 739

原创 UDF开发入门实例

简单UDF示例–字母大小写转换第一步：创建maven java 工程，导入jar包<repositories><repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url></repository></repositories><depen

2021-06-08 18:26:58 231

原创 CDH5 6 7安装包

链接：https://pan.baidu.com/s/1ODW620C_0tviXExgae0EJQ提取码：1234

2021-05-31 18:23:52 1149 11

原创 flinksql写入hudi 踩坑实录

flinksql写入hudi测试环境：Flink 1.11.1 hudi 0.8.0Hadoop 3.0.0 Hive 2.1.1准备工作：1.安装flink 1.11.1,要下载带hadoop版本的；2.下载hudi-flink-bundle_2.1?.jar，并放入$FLINK_HOME/lib下。下载地址： https://repo.maven.apache.org/maven2/org/apache/hudi/hudi-flink-bundle_2.11/具体实施步骤：

2021-04-08 15:17:29 4829 2

原创 Flinksql读取Kafka写入Iceberg 实践亲测

1. Presto简介1 Presto概念Presto是 Facebook 推出的一个开源的分布式SQL查询引擎，数据规模可以支持GB到PB级，主要应用于处理秒级查询的场景。Presto 的设计和编写完全是为了解决像 Facebook 这样规模的商业数据仓库的交互式分析和处理速度的问题。注意：虽然 Presto 可以解析 SQL，但它不是一个标准的数据库。不是 MySQL、Oracle 的代替品，也不能用来处理在线事务（OLTP）。1.2 Presto 应用场景Presto 支持在线数据

2021-04-06 18:26:01 1840 3

原创实战 | 离线搭建CDH6.20平台踩坑实录

一．CDH安装介绍平台版本：CDH6.20安装方式：yum源离线安装传输介质：U盘节点数量：3台二．CDH所需离线安装包及文件下载地址所需安装包及parcels的下载地址：1.https://archive.cloudera.com/cm6/6.2.0/redhat7/yum/RPMS/x86_64/cloudera-manager-agent-6.2.0-968826.el7.x86_64.rpm2.https://archive.cloudera.com/cm6/6.2.0/redha

2021-03-09 14:13:17 963 8

原创测试hudi-0.7.0对接spark structure streaming

测试hudi-0.7.0对接spark structure streaming测试环境Hudi version :0.7.0Spark version :2.4.0Hive version :2.1.1Hadoop version :3.0.0Storage (HDFS/S3/GCS..) :HDFSRunning on Docker? (yes/no) :no测试内容表类型：copy on write插入方式：bulkinsert控制文件大小：clustering配置是否同步hi

2021-03-05 16:11:02 628

原创 iceberg对接flinksql测试

Apache Iceberg对接Flinksql测试Apache Iceberg简介我们可以简单理解为他是基于计算层（flink ， spark）和存储层（orc，parqurt）的一个中间层，我们在hive建立一个iceberg格式的表。用flink或者spark写入iceberg，然后再通过其他方式来读取这个表，比如spark，flink，presto等。○ 在文件Format（parquet/avro/orc等）之上实现Table语义。 ■ 支持定义和变更Schema ■ 支持Hidd

2021-03-05 11:30:29 1694 7

80工龄程序员

原创 linux通过防火墙iptables做隔离端口的脚本

原创 flink1.12.2+hudi0.9.0测试