自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 linux通过防火墙iptables做隔离端口的脚本

dodone。

2022-09-28 16:07:59 619 1

原创 flink1.12.2+hudi0.9.0测试

1.环境准备1.1、flink1.12.21.1.1 编译包下载:https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.12.2/flink-1.12.2-bin-scala_2.11.tgz1.1.2 flink的部署可参考上篇:https://blog.csdn.net/weixin_49218925/article/details/1155110221.2、hudi0.9.0已发布,可直接下载hudi-flink-bundle_2

2022-02-18 11:17:10 1048 2

原创 随笔 hash hash表 hashcode

hashhash是一个函数,该函数中的实现就是一种算法,通过一系列的算法,把任意长度的输入,变换成固定长度的输出,该输出就是散列值。不同的输入可能会散列成相同的输出,所以不能从散列值来确定输入值。hash表这个时候,我们就需要知道另一个东西,hash表,通过hash算法得到的hash值就在这张hash表中,也就是说,hash表就是所有的hash值组成的,有很多种hash函数,也就代表着有很多种算法得到hash值。hashcodehashcode就是通过hash函数得来的,通俗的说,就是通过某一种算

2021-10-26 15:24:01 152

原创 linux|常用的脚本:

查找某个类在哪个jar包中:#!/bin/bashls *.jar | while read jarfile;do echo "$jarfile";jar -tf $jarfile | grep " "; done#优化后的ls *.jar | while read jarfile;do jar -tf $jarfile | grep " "; if [$? -eq 0]; then echo "find class in jar:"$jarfile;fi; done...

2021-10-09 14:44:13 155

原创 linux中物理cpu、逻辑cpu以及core、vcore

linux中物理cpu、逻辑cpu以及core、vcorelinux查看物理cpu:cat /proc/cpuinfo | grep 'physical id' | sort | wc -llinux查看cpu中core的个数:cat /proc/cpuinfo | grep 'cpu cores' | uniq查看逻辑cpu个数:cat /proc/cpuinfo | grep 'processor' | wc -l总核数=物理cpu个数 * 每个物理cpu的核数总逻辑cpu个数=总

2021-09-24 09:42:30 2316 2

原创 flinksql on zeppelin安装及使用

zeppelin简介 Flink SQL的默认开发方式是通过Java/Scala API编写,与纯SQL化、平台化的目标相去甚远。目前官方提供的FlinkSQL Client仅能在配备Flink客户端的本地使用,局限性很大。而Ververica开源的Flink SQL Gateway组件是基于REST API的,仍然需要二次开发才能供给上层使用,并不是很方便。 鉴于有很多企业都无法配备专门的团队来解决Flink SQL平台化的问题,那么到底有没有一个开源的、开箱即用的、功能相对完善的组件呢?答案就

2021-08-11 19:23:54 565

原创 hive数据倾斜及处理案例

什么是数据倾斜数据倾斜其实是进行分布式计算的时候,某些节点的计算能力比较强或者需要计算的数据比较少,早早执行完了,某些节点计算的能力较差或者由于此节点需要计算的数据比较多,导致出现其他节点的reduce阶段任务执行完成,但是这种节点的数据处理任务还没有执行完成。数据倾斜的现象当我们在执行HiveQL或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。hive数据倾斜的原因1.空值产生的数据倾斜2.不同数据类型关联产生的数据倾斜3.

2021-08-05 17:27:33 1038

原创 1.安装flink-1.12.2

FLINK on YARN模式解压安装包:tar -zvxf flink-1.12.2-bin-scala_2.11.tgz /opt/修改yarn配置,设置application master重启时尝试的最大次数(cdh内有此参数,默认是2):<property><name>yarn.resourcemanager.am.max-attempts</name><value>10</value><description&gt

2021-07-29 16:17:17 246

原创 CDH6 kafka如何彻底删除topic及数据

标题CDH6 kafka如何彻底删除topic及数据删除kafka topic及其数据,发现都会偶然出现无法彻底删除kafka的情况。本人亲测并总结了以下流程。第一步:设置 auto.create.topics.enable = false,默认设置为true。如果设置为true,则produce或者fetch不存在的topic也会自动创建这个topi。同时需要认真把生产和消费程序彻底全部停止。第二步:在CDH界面,找到kafka的配置,或者server.properties设置delete.to

2021-06-30 16:01:41 699

原创 UDF开发入门实例

简单UDF示例–字母大小写转换第一步:创建maven java 工程,导入jar包<repositories><repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url></repository></repositories><depen

2021-06-08 18:26:58 207

原创 CDH5 6 7安装包

链接:https://pan.baidu.com/s/1ODW620C_0tviXExgae0EJQ提取码:1234

2021-05-31 18:23:52 1074 11

原创 flinksql写入hudi 踩坑实录

flinksql写入hudi测试环境:Flink 1.11.1 hudi 0.8.0Hadoop 3.0.0 Hive 2.1.1准备工作:1.安装flink 1.11.1,要下载带hadoop版本的;2.下载hudi-flink-bundle_2.1?.jar,并放入$FLINK_HOME/lib下。下载地址: https://repo.maven.apache.org/maven2/org/apache/hudi/hudi-flink-bundle_2.11/具体实施步骤:

2021-04-08 15:17:29 4770 2

原创 Flinksql读取Kafka写入Iceberg 实践亲测

1. Presto简介1 Presto概念Presto是 Facebook 推出的一个开源的分布式SQL查询引擎,数据规模可以支持GB到PB级,主要应用于处理秒级查询的场景。Presto 的设计和编写完全是为了解决像 Facebook 这样规模的商业数据仓库的交互式分析和处理速度的问题。注意: 虽然 Presto 可以解析 SQL,但它不是一个标准的数据库。不是 MySQL、Oracle 的代替品,也不能用来处理在线事务(OLTP)。1.2 Presto 应用场景Presto 支持在线数据

2021-04-06 18:26:01 1767 3

原创 实战 | 离线搭建CDH6.20平台 踩坑实录

一.CDH安装介绍平台版本:CDH6.20安装方式:yum源离线安装传输介质:U盘节点数量:3台二.CDH所需离线安装包及文件下载地址所需安装包及parcels的下载地址:1.https://archive.cloudera.com/cm6/6.2.0/redhat7/yum/RPMS/x86_64/cloudera-manager-agent-6.2.0-968826.el7.x86_64.rpm2.https://archive.cloudera.com/cm6/6.2.0/redha

2021-03-09 14:13:17 909 8

原创 测试hudi-0.7.0对接spark structure streaming

测试hudi-0.7.0对接spark structure streaming测试环境Hudi version :0.7.0Spark version :2.4.0Hive version :2.1.1Hadoop version :3.0.0Storage (HDFS/S3/GCS..) :HDFSRunning on Docker? (yes/no) :no测试内容表类型:copy on write插入方式:bulkinsert控制文件大小:clustering配置是否同步hi

2021-03-05 16:11:02 600

原创 iceberg对接flinksql测试

Apache Iceberg对接Flinksql测试Apache Iceberg简介我们可以简单理解为他是基于计算层(flink , spark)和存储层(orc,parqurt)的一个中间层,我们在hive建立一个iceberg格式的表。用flink或者spark写入iceberg,然后再通过其他方式来读取这个表,比如spark,flink,presto等。○ 在文件Format(parquet/avro/orc等)之上实现Table语义。 ■ 支持定义和变更Schema ■ 支持Hidd

2021-03-05 11:30:29 1656 7

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除