疯码牛Pro-CSDN博客

原创 Oracle OGG 安装全流程，源端和目标端

进程本质上来说也是一个extract，只不过他的作用仅仅是把trail文件传递到目标端，配置过程和extract进程类似，只是逻辑上称之为pump进程。启动顺序按照源mgr——目标mgr——源extract——源pump——目标replicate来完成。基于辅助日志等进行实时传输，故需要打开相关日志确保可获取事务内容，通过下面的命令查看该状态。创建一个用户,在该用户下新建测试表，用户名、密码、表名均为 test_ogg。在源端和目标端的OGG命令行下使用start [进程名]的形式启动所有进程。

2023-09-14 14:21:51 1010

原创 Flink sql table，算子UID重复问题，一个jar包生成多个job问题

问题描述：flink sql中，小欧非kafka 数据，kafka数据中包括多张表数据，flink根据不同表进行解析，写入不同的下游，根据flink内部的拓扑优化策略，这时候会生成多个job。解决思路：在sink端，对sink算子连接起来，下面代码即可解决。问题现象：一个jar包生成多个job问题。

2023-09-14 14:20:46 643

原创 kafka常用命令

修改kafka副本数，查看修改状态。2. Topic分析查询。3. Topic配置修改。#修改kafka leader。1. 数据生产消费。#修改kafka副本数。#列举所有topic。

2023-09-07 09:01:10 224

原创 OGG常见运维命令

查看数据传输情况 daily hourly total latest。#重置ogg，注意要设定制定的具体文件。2.4.1. OGG查询分析。2.4.2. OGG配置修改。#checkpoint情况。#启动manager。#启动relicat。#停止relicat。#删除relicat。#添加relicat。

2023-09-07 08:57:56 503

原创数据湖技术Hudi的玉女心经（一篇文章从入门到精通）

通过对写流程的梳理可以了解到 Apache Hudi 相对于其他数据湖方案的核心优势：（1）写入过程充分优化了文件存储的小文件问题，Copy On Write 写会一直将一个 bucket （FileGroup）的 base 文件写到设定的阈值大小才会划分新的 bucket；Merge On Read 写在同一个 bucket 中，log file 也是一直 append 直到大小超过设定的阈值 roll over。

2023-09-07 08:49:29 1115 1

原创完整flink sql操作Hudi demo flink 1.15.3版本

cost DOUBLE COMMENT '费用',

2023-06-30 00:05:53 268

原创 flink standalone高可用集群搭建

Flink standalone模式高可用集群，有一个 JobManager 作为备用，当主 JobManager 宕机之后，备用 JobManager 顶上，等宕机的 JobManager 恢复之后，又变成备用。配置 master 与 worker内部通信端口。配置masterIP(可以指定当前服务器IP)第二步：Flink源码包解压。#如果只修改单个文件。特备注意：在配置文件。

2023-06-21 17:49:18 322

原创 Hudi 编译protoc-3.21.5-windows-x86_32.exe 包找不到问题

很明显，yuan'yin'wei可以看出是版本冲突的问题，解决方案就需要重新安装符合的protoc。

2023-06-16 15:36:24 447

原创 Flink，Hudi集成，Flink Sql和Hive Client端

Hudi数据，Flink SQL、Spark SQL、Hive SQL同时进行读写

2023-05-28 15:24:17 495 1

原创数据层库分型及每层建模思想

例如，针对销售报表需求，可以创建一个包含按月汇总的销售额、产品类别销售额、地区销售额等数据的表。ADS层可以根据实际需求选择维度建模或主题建模，以便为应用和报表提供所需的数据。ODS（操作数据存储）：在ODS层，数据主要是事务型数据，通常不使用维度建模或主题建模。总之，在数据仓库分层中，维度建模和主题建模在不同的层次发挥作用。维度建模主要应用于DWD和DWS层，而主题建模主要应用于DWT层。根据实际需求，ADS层可以选择维度建模或主。DWD（数据仓库详细层）：在DWD层，数据仓库的建模主要采用维度建模。

2023-03-28 11:22:02 246

原创 CentOS7.6安装php5.6

CentOS7.6安装php5.6

2023-03-12 17:30:56 1160

原创如果你不懂指标体系，我强烈建议你看完这篇文章

指标体系，虽然对外透出的是各种指标、报表及看板，但其内在的核心，是对于一个行业深层次的认知，一套行业完整分析方法，这些都是在历年的积累中打磨出来的，在业务发展过程中探索出来的。久而久之，这些分析方法沉淀之后，形成一套完整的行业指标体系。因此，整个行业指标体系的建设与完善，离不开扎根在该行业数据工作者前赴后继、日积月累的奋斗。

2022-05-08 11:46:25 691

原创 Flink不止于计算，存算一体才是未来

未来，利用 Flink CDC、Flink SQL、Flink Dynamic Table 就可以构建一套完整的流式数仓，实现实时离线一体化及对应计算存储一体化的体验。那便是大数据技术，flink技术发展的又一个精进高度。

2022-03-25 12:30:11 2266

原创大数据时代，数据湖技术Apache Iceberg的前世今生

一种技术，从出现到广泛的使用，有着他与生俱来的天性，同样有后天物竞天择适者生存的妥协。当下，数据湖技术天下三分，各有侧重，但它来自哪里，要去往何处，优势在哪里，需要补强的又是什么？

2022-03-21 09:01:29 409

原创数据湖三剑客，大数据时代的新范式？

大数据技术发展到现阶段，逐渐出现了诸多的掣肘，不断有新的问题出现，仅仅就存储方面来讲，与数据库这样高度优化的技术相比，大数据技术的抽象和实现还是太原始和初级。这个时候，革命性的技术数据湖应运而生。

2022-03-03 20:03:19 146

原创 flink问题合集

1 flink web-ui task manager stdout 打印出来的中文乱码在flink_conf. yaml 添加以下内容env.java.opts: "-Dfile.encoding=UTF-8"

2021-10-20 17:26:11 172

原创三方大数据平台问题修改

内存修改su - deploy/opt/workspace/executor-proxyvim ./sbin/env.sh

2021-08-30 17:52:03 142

原创大数据集群，这些关键问题需要注意，持续更新

1 集群启动及初始化配置问题集群配置修改好后，往往需要重启。每个集群的重启方式不一样，需要根据集群具体设定。例如：我们现有第三方平台的重启方式为：sh /opt/workspace/executor-proxy/sbin/app.sh restart修改初始化内存分配的方式为：设置初始化内存为1gpwd/opt/workspace/executor-proxy/sbindiff env.sh env.sh.bak 8c8< export MEM=" -Xms1g -Xmx1

2021-08-17 13:20:59 460

原创 CDH 6.3.1正式环境安装过程及注意事项，帮你一步到位

第一部分环境检查及准备：1.1 基础环境及镜像包准备1.1.1 基础环境要求名称地址操作系统 root密码 cdh-0001 10.1.0.30 Centos 7.7 ***** cdh-0001 10.1.0.105 Centos 7.7 cdh-0001 .

2021-08-16 09:03:21 2678 2

原创 Linux 离线安装MySQL5.7

1、准备安装包自从从MySQL官网下载。下载地址：https://dev.mysql.com/downloads/mysql/5.7.html#downloads为了防止版本不同导致安装失败，可从百度网盘下载。mysql-5.7.34-linux-glibc2.12-x86_64.tar.gz2、解压安装包tar -xvf mysql-5.7.26-linux-glibc2.12-x86_64.tar再移动并重命名。mv mysql-5.7.26-linux-gli

2021-08-15 17:39:52 313

原创 CDH CM修改配置文件Data truncation: Incorrect string value: ‘\xE5\xB7\xB2\xE6\x9B\xB4...‘ for column ‘MESSA

Data truncation: Incorrect string value: '\xE5\xB7\xB2\xE6\x9B\xB4...' for column 'MESSAGE' at row 1cloudera server 端日志：Caused by: java.sql.BatchUpdateException: Incorrect string value: '\xE5\xB7\xB2\xE6\x9B\xB4...' for column 'VALUE' at row 1 ...

2021-08-11 22:52:30 414

原创 Hive 问题合集持续更新

一 hive建表信息中文乱码：显示问号等问题现象：主要原因：　　1 hive元数据库mysql 或者mariaDB 编码格式问题　　2 hive元数据定义信息编码格式问题解决方案：对于第一种问题：修改配置文件在/etc/my.cnf文件中在[mysqld]标签下添加init_connect='SET collation_connection = utf8_unicode_ci'init_connect='SET NAMES utf8'character-set-se

2021-08-11 22:47:50 74

原创 flink数据广播场景总结

数据集广播，主要分为广播变量，广播维表(数据集)两种，一种为变量，一种为常量(抽象的说法)；一.数据广播背景对于小变量，小数据集，需要和大数据集，大流进行联合计算的时候，往往把小数据集广播出去，整体直接和大数据集(流)的分布式最小粒度数据进行计算，最后把计算结果合并，这样效率更高，省去分布式节点之间的数据传输及二次计算。例如：在Flink使用场景中，外部的配置文件或计算规则及维表等进行预加载，并定期更新，流式计算中广播小变量等场景。数据集的广播，主要有以下几种方式可以实现1.预加载在

2021-08-11 22:46:00 1321

原创 CDH 时钟偏差不良 : 无法找到主机的 NTP 服务，或该服务未响应时钟偏差请求。

首先：执行ntpstat，实时命令查看状态，结果发现所有服务器的状态都是未同步状态“unsynchronised”：然后，重启ntp服务、手动时间同步、再重启服务（全部机器执行）：systemctl stop ntpdsudo ntpd -gqsystemctl start ntpd最后，执行timedatectl，查看服务器时间状态，发现NTP synchronized为true，说明时间同步成功了。并且各个节点与master之间的时间都保持...

2021-08-11 22:44:41 2938

原创 Flink 部署模式，session 、pre job、aplication三种主要模式

长久以来，在YARN集群中部署Flink作业有两种模式，即Session Mode和Per-Job Mode，而在Flink 1.11版本中，又引入了第三种全新的模式：Application Mode。本文先回顾两种传统模式的做法与存在的问题，再简要介绍Application Mode。传统部署模式Session模式Session模式是预分配资源的，也就是提前根据指定的资源参数初始化一个Flink集群，并常驻在YARN系统中，拥有固定数量的JobManager和TaskManager（注意JobMa

2021-08-11 22:43:31 5922

原创最新版大数据平台安装部署指南，HDP-2.6.5.0，ambari-2.6.2.0

一、服务器环境配置1 系统要求名称地址操作系统 root密码 Master1 10.1.0.30 Centos 7.7 Master2 10.1.0.105 Centos 7.7 Worker1 10.1..

2021-08-11 22:41:13 1039

原创 CDH Cloudera Manager namenode拉不起来或者namenode都处于禁用状态

CDH　Cloudera Manager　进程服务名称systemctl status cloudera-scm-serversystemctl start cloudera-scm-agent格式化namenodecm 前端界面显示；namenode 因为 Service Monitor 未找到活动 NameNodenamenode后端日志：Journal Storage Directory /opt/hadoop/hdfs/journalnode/nameservice

2021-08-11 22:40:50 1880

原创 CDH HDP ambari CM问题合集，持续更新

一问题现象：namenode 数据块丢失NameNode Blocks HealthTotal Blocks:[5247], Missing Blocks:[4677]问题原因：datanode 或namenode数据丢失冗余副本数据不一致造成解决办法：删除丢失模块元数据，6小时后数据会自动同步相关指令：查看丢失数据块：hdfs fsck /简单删除丢失块命令行for (( i=0; i<100; i++ ))do hdfs fsck / |

2021-08-11 22:39:55 461 2

原创 Flink重启策略 flink出现异常重新拉起任务

重启策略概念：Flink支持不同的重启策略，可以控制在发生故障时如何重启新启动作业。重启策略分类：重启策略重启策略值描述默认值 Fixed delay fixed-delay 尝试一个给定的次数来重启Job，如果超过了最大的重启次数，Job最终将失败。启用 checkpointing，但没有配置重启策略，则使用固定间隔 (fixed-delay) 策略，默认值为Integer.MAX_VALUE Failure rate failure-

2021-08-11 22:38:04 2447

原创查看文件夹大小，日志查询、磁盘清理

du -h --max-depth=1 ../data/

2021-07-07 19:28:52 57

原创 CDH CM修改配置文件Data truncation: Incorrect string value: ‘\xE5\xB7\xB2\xE6\x9B\xB4...‘ for column ‘MESSA

Data truncation: Incorrect string value: '\xE5\xB7\xB2\xE6\x9B\xB4...' for column 'MESSAGE' at row 1cloudera server 端日志：Caused by: java.sql.BatchUpdateException: Incorrect string value: '\xE5\xB7\xB2\xE6\x9B\xB4...' for column 'VALUE' at row 1 ...

2021-07-07 14:07:39 420

原创大数据框架exactly-once底层实现原理，看这篇文章就够了

一、大数据框架三种语义‍‍‍‍在分布式系统中，如kafka、spark、flink等构成系统的任何节点都是被定义为可以彼此独立失败的。比如在 Kafka 中，broker 可能会 crash，在 producer 推送数据至 topic 的过程中也可能会遇到网络问题。根据 producer 处理此类故障所采取的提交策略类型，有如下三种(以kafka为例)：at-least-once：如果 producer 收到来自 Kafka broker 的确认（ack）或者 acks = all，则表示该消息已

2021-04-09 00:16:35 238

xuye0606的博客

原创 Oracle OGG 安装全流程，源端和目标端

原创 Flink sql table，算子UID重复问题，一个jar包生成多个job问题

原创 kafka常用命令

原创 OGG常见运维命令

原创数据湖技术Hudi的玉女心经（一篇文章从入门到精通）

原创完整flink sql操作Hudi demo flink 1.15.3版本

原创 flink standalone高可用集群搭建

原创 Hudi 编译protoc-3.21.5-windows-x86_32.exe 包找不到问题

原创 Flink，Hudi集成，Flink Sql和Hive Client端

原创数据层库分型及每层建模思想

原创 CentOS7.6安装php5.6

原创如果你不懂指标体系，我强烈建议你看完这篇文章

原创 Flink不止于计算，存算一体才是未来

原创大数据时代，数据湖技术Apache Iceberg的前世今生

原创数据湖三剑客，大数据时代的新范式？

原创 flink问题合集

原创三方大数据平台问题修改

原创大数据集群，这些关键问题需要注意，持续更新

原创 CDH 6.3.1正式环境安装过程及注意事项，帮你一步到位

原创 Linux 离线安装MySQL5.7

原创 CDH CM修改配置文件Data truncation: Incorrect string value: ‘\xE5\xB7\xB2\xE6\x9B\xB4...‘ for column ‘MESSA

原创 Hive 问题合集持续更新

原创 flink数据广播场景总结

原创 CDH 时钟偏差不良 : 无法找到主机的 NTP 服务，或该服务未响应时钟偏差请求。

原创 Flink 部署模式，session 、pre job、aplication三种主要模式

原创最新版大数据平台安装部署指南，HDP-2.6.5.0，ambari-2.6.2.0

原创 CDH Cloudera Manager namenode拉不起来或者namenode都处于禁用状态

原创 CDH HDP ambari CM问题合集，持续更新

原创 Flink重启策略 flink出现异常重新拉起任务

原创查看文件夹大小，日志查询、磁盘清理

原创 CDH CM修改配置文件Data truncation: Incorrect string value: ‘\xE5\xB7\xB2\xE6\x9B\xB4...‘ for column ‘MESSA

原创大数据框架exactly-once底层实现原理，看这篇文章就够了

原创数据治理开始前，先掌握这个元数据治理神器-Atlas

原创学习推荐系统之前，请先看完这个技术方案

原创 Hbase和Hive的区别与联系

powerdesigner

空空如也