自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 收藏
  • 关注

原创 Datasophon1.2.1集成Dinky1.0.1

通过下图展示的url进去grafana配置图表,默认登陆账户密码:admin :admin。回到datasophon的dinky服务,刷新即可在总览看到详细监控信息。进入datasophon-manager-1.2.1中。重启datasophon-manager的api。配置目录下添加配置模板。

2024-04-26 21:43:34 301

原创 umi-ocr识别文件夹所有文件并导入数据库

最近有个需求是识别身份证所有信息。所以调用umi-ocr接口并写入mysql。

2024-04-05 14:28:38 220

原创 Flink中流式的各种聚合

针对无界聚合算子,

2024-03-24 12:51:36 439 1

原创 在Flink SQL中使用watermark进阶功能

在Flink SQL中使用watermark进阶功能在Flink1.18中对Watermark的很多进阶功能(比如watermark对齐)通过datastream api很容易使用。在sql中使用不是很方便,在Flink1.18中对这些功能进行扩展。在sql中也能使用这些功能。只有实现了接口的源连接器(source connector)(比如kafka、pulsar)才可以使用这些进阶功能。这些进阶的功能都可以使用dynamic table options或 hint进行配置,如果用户同时使用dynamic

2024-03-24 09:55:45 1167

原创 Flink1.18 如何配置算子级别的TTL

举例来说,假设一个 ETL 作业使用 ROW_NUMBER 进行去重操作后, 紧接着使用 GROUP BY 语句进行聚合操作。您可以为去重算子和聚合算子的状态分别设置不同的 TTL。双流 Join 会生成拥有两条输入边TwoInputStreamOperator的状态算子,它用到了两个状态,分别来保存来自左流和右流的更新。table.exec.state.ttl 来控制状态保留,因此它们的状态无法在算子级别进行配置。中,系统会根据两个数据流中元素的时间戳和定义的间隔来决定哪些元素应该被连接在一起。

2024-03-22 19:52:07 475 1

原创 hive的kerberos记录

【代码】hive的kerberos记录。

2024-03-05 10:00:56 355

原创 Apache celeborn 安装及使用教程

因为在配置文件中已经配置了master 所以启动matster和worker即可。

2024-02-24 17:02:56 849

原创 对比pg主从库一致性

【代码】对比pg主从库一致性。

2024-01-05 16:58:58 424

原创 k8s之flink的几种创建方式

在此之前需要部署一下私人docker仓库,教程注意:每台节点的daemon.json都需要配置并重启。

2024-01-03 17:18:05 1328

原创 dinky1.0 同步PG 时 修改数据类型

【代码】dinky1.0 同步PG 时 修改数据类型。

2023-12-26 10:27:47 444

原创 k8s实战之ELK日志管理

【代码】k8s实战之ELK日志管理。

2023-12-25 20:58:23 949

原创 Helm 包管理器

【代码】Helm 包管理器。

2023-12-12 15:47:24 412

原创 k8s之身份认证与权限

Kubernetes 中提供了良好的多租户认证管理机制,如 RBAC、ServiceAccount 还有各种策略等。通过该文件可以看到已经配置了 RBAC 访问控制。

2023-12-11 14:45:19 633

原创 k8s之高级调度

Pod 亲和力:将与指定 pod 亲和力相匹配的 pod 部署在同一节点。节点亲和力:进行 pod 调度时,优先调度到符合条件的亲和力节点上。Pod 反亲和力:根据策略尽量部署或不部署到一块。

2023-12-10 22:33:10 568

原创 k8s之存储管理

使用 kubectl create configmap -h 查看示例,构建 configmap 对象。

2023-12-10 21:28:51 1115

原创 在k8s中部署nfs-client-provisioner

通过这个流程,nfs-client-provisioner 实现了动态创建和管理基于 NFS 的 PV,减轻了管理员的工作负担,同时使开发人员能够更轻松地使用动态的存储资源。需要注意的是,确保您在 PVC 和 StorageClass 的定义中提供正确的配置信息,以确保 nfs-client-provisioner 能够与 NFS 服务器正确交互。

2023-12-09 11:18:29 1353

原创 导入pgsql中的保存的html数据到hive时,换行符无法被repalce

最终发现可以使用chr(ASCII码) 可以匹配到,坑我好久。

2023-12-08 14:00:53 456

原创 k8s之服务发布

Ingress 可以理解为也是一种 LB 的抽象,它的实现也是支持 nginx、haproxy 等负载均衡服务的。k8s会根据service关联到pod的podIP信息组合成一个endpoint。各环境访问名称统一、访问 k8s 集群外的其他服务、项目迁移。

2023-12-03 22:17:30 320

原创 k8s之资源调度

startupProbe: #应用启动探针配置httpGet: #探测方式path: /index.html #探测路径#port: 80exec:command:- sh- -c- "sleep 4;failureThreshold: 3 #失败多少次才算失败periodSeconds: 10 #间隔时间successThreshold: 1 #多少次成功算成功timeoutSeconds: 5 #超时时间livenessProbe: #应用启动探针配置。

2023-12-03 21:41:59 388

原创 kubectl 基本操作

【代码】kubectl 基本操作。

2023-12-03 18:40:41 387

原创 k8s集群搭建

在部署集群之前,我已经有三台干净的机器(静态ip、防火墙关闭等)。之后采用kubesphere进行搭建。下边是我的kubesphere的创建文件。

2023-12-03 18:11:43 330

转载 Ranger配置hive 插件报错解决Permission denied: user=rangerlookup, access=READ_EXECUTE, inode=“/”

引用至:Ranger配置hive 插件报错解决Permission denied: user=rangerlookup, access=READ_EXECUTE, inode=“/“-CSDN博客

2023-12-01 16:42:36 417

原创 linkedin/coral编译

1.gradle安装如下:https://blog.csdn.net/lxh19930428/article/details/53869408。2.npm安装如下:https://blog.csdn.net/qq_42365082/article/details/127007958。如果是linux编译建议安装git,否则可能会报错。

2023-10-08 20:14:14 115

原创 Trino连接配置了kerberos的hive

【代码】Trino连接配置了kerberos的hive。

2023-09-28 13:30:13 367

原创 Flink TaskManager内存优化

在生产使用一段时间后发现 托管内存(默认是Total memory* 0.4)和网络开销内存(0.1)使用较少。所以选择降低这两部分的内存。

2023-09-27 14:58:44 256 1

原创 HDFS启动后元数据报错解决

【代码】HDFS元数据报错解决。

2023-09-25 21:55:38 213 1

原创 doris升级到2.0.1启动FE报错

FE 有可能因为某些原因出现无法启动 bdbje、FE 之间无法同步等问题。这时,我们需要手动操作来恢复 FE。手动恢复 FE 的大致原理,是先通过当前。如果你需要将当前已有的 FOLLOWER/OBSERVER 类型的 FE,变更为 OBSERVER/FOLLOWER 类型,请先按照前面所述的方式删除 FE,再添加对应类型的 FE 即可。命令,将之前的其他的 FE 从元数据删除后,按加入新 FE 的方式,重新把这些 FE 添加一遍。中的元数据,启动一个新的 MASTER,然后再逐台添加其他 FE。

2023-09-22 11:20:29 1068 1

原创 解析spark sql将数据血缘并导入datahub

由于我们是spark读取数据写入hudi 但是datahub自带的spark解析貌似不能解析。所以试图通过spline-spark-agent解析并导入datahub。

2023-08-23 17:35:40 718 2

原创 dlink0.7.5+flink1.15.2 同步pg数据修改源码

需要注意的是1.14版本中有的,我们需要复制1.14版本的代码到1.15的这里。dlink-flink-1.15的pom.xml中添加。CDCBuilderFactory中添加上。如果是本地编译运行的话,还需要在。

2023-07-26 10:34:46 153 1

原创 datahub数据血缘相关

在此之前查看了以下大佬的文档:未完待续。

2023-07-07 21:34:34 596 2

原创 记录:flink1.15.2+dinky0.7.3

同时修改了dinky的auto.sh中默认的flink版本。

2023-07-04 16:31:01 238

原创 hudi0.13.0编译

Hudi0.13编译 - 知乎 (zhihu.com)Hudi Hive sync 使用 - 简书 (jianshu.com)[SUPPORT]Compile Error of hudi-0.13.0 "org.apache.hadoop.hive.common.type can not be converted to java.sql.Date" · Issue #8216 · apache/hudi (github.com)之一--源码编译 - 知乎 (zhihu.com)Hudi master 0.1

2023-06-08 22:51:17 264

原创 doris跨hdfs集群迁移数据

【代码】doris跨hdfs集群迁移数据。

2023-06-01 19:15:03 552

原创 flink个人随笔

【代码】flink个人随笔。

2023-05-30 16:06:04 70

原创 记录dolphinscheduler连接配置kerberos的hive遇到的问题

配置hive之前看看有没有这几个kerberos的配置选项。因为你的common.properties少配置一个参数。这里根本没有强调这个参数。然而你看代码怎么着。没有这个参数,kerberos的参数就没起作用啊。先公布答案:resource.storage.type=HDFS这个参数。

2023-05-20 17:40:55 456 1

原创 datasophon组件安装时踩坑记录

修改/opt/datasophon-manager-1.1.1/conf/meta/DDP-1.0.0/HIVE/service_ddl.json里面的hive版本。需要修改/opt/datasophon/datasophon-worker/script/datasophon-env.sh的hive版本(重启)参数: yarn.application.status.address 和yarn.job.history.status.address记得修改。原因缺少libcrypto.so.1.1这个包。

2023-04-28 11:30:36 879

原创 datasophon1.0.0 安装教程

datasophon 安装教程

2023-04-12 22:33:55 614 5

原创 dinky 本地编译并启动

1.1 下载源码包后,解压进入idea 设置profiles,dev,flink-1.14,scala2.12,web打上勾 默认是jdk8的环境编译。之后进行build 如果你build以后没有前端页面。说明你的idea不太行。1.2修改数据库配置文件.启动即可。之后静待本地编译通过即可。1.首先是本地编译测试。

2023-03-25 13:58:33 1099 6

原创 dinky0.7.1+flinkcdc2.3.0整库同步pgsql

dinky0.7.1+flinkcdc2.3.0整库同步pgsql

2023-03-08 22:39:49 710 7

原创 datahub导入配置了kerberos的hive的数据

datahub导入配置了kerberos的hive的数据

2023-02-19 17:55:27 402

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除