- 博客(35)
- 收藏
- 关注
原创 Oracle OGG 安装全流程,源端和目标端
进程本质上来说也是一个extract,只不过他的作用仅仅是把trail文件传递到目标端,配置过程和extract进程类似,只是逻辑上称之为pump进程。启动顺序按照源mgr——目标mgr——源extract——源pump——目标replicate来完成。基于辅助日志等进行实时传输,故需要打开相关日志确保可获取事务内容,通过下面的命令查看该状态。创建一个用户,在该用户下新建测试表,用户名、密码、表名均为 test_ogg。在源端和目标端的OGG命令行下使用start [进程名]的形式启动所有进程。
2023-09-14 14:21:51 1010
原创 Flink sql table,算子UID重复问题,一个jar包生成多个job问题
问题描述:flink sql中,小欧非kafka 数据,kafka数据中包括多张表数据,flink根据不同表进行解析,写入不同的下游,根据flink内部的拓扑优化策略,这时候会生成多个job。解决思路:在sink端,对sink算子连接起来,下面代码即可解决。问题现象:一个jar包生成多个job问题。
2023-09-14 14:20:46 643
原创 kafka常用命令
修改kafka副本数,查看修改状态。2. Topic分析查询。3. Topic配置修改。#修改kafka leader。1. 数据生产消费。#修改kafka副本数。#列举所有topic。
2023-09-07 09:01:10 224
原创 OGG常见运维命令
查看数据传输情况 daily hourly total latest。#重置ogg,注意要设定制定的具体文件。2.4.1. OGG查询分析。2.4.2. OGG配置修改。#checkpoint情况。#启动manager。#启动relicat。#停止relicat。#删除relicat。#添加relicat。
2023-09-07 08:57:56 503
原创 数据湖技术Hudi的玉女心经(一篇文章从入门到精通)
通过对写流程的梳理可以了解到 Apache Hudi 相对于其他数据湖方案的核心优势:(1)写入过程充分优化了文件存储的小文件问题,Copy On Write 写会一直将一个 bucket (FileGroup)的 base 文件写到设定的阈值大小才会划分新的 bucket;Merge On Read 写在同一个 bucket 中,log file 也是一直 append 直到大小超过设定的阈值 roll over。
2023-09-07 08:49:29 1115 1
原创 flink standalone高可用集群搭建
Flink standalone模式高可用集群,有一个 JobManager 作为备用,当主 JobManager 宕机之后,备用 JobManager 顶上,等宕机的 JobManager 恢复之后,又变成备用。配置 master 与 worker内部通信端口。配置masterIP(可以指定当前服务器IP)第二步:Flink源码包解压。#如果只修改单个文件。特备注意:在配置文件。
2023-06-21 17:49:18 322
原创 Hudi 编译protoc-3.21.5-windows-x86_32.exe 包找不到问题
很明显,yuan'yin'wei可以看出是版本冲突的问题,解决方案就需要重新安装符合的protoc。
2023-06-16 15:36:24 447
原创 Flink,Hudi集成,Flink Sql和Hive Client端
Hudi数据,Flink SQL、Spark SQL、Hive SQL同时进行读写
2023-05-28 15:24:17 495 1
原创 数据层库分型及每层建模思想
例如,针对销售报表需求,可以创建一个包含按月汇总的销售额、产品类别销售额、地区销售额等数据的表。ADS层可以根据实际需求选择维度建模或主题建模,以便为应用和报表提供所需的数据。ODS(操作数据存储):在ODS层,数据主要是事务型数据,通常不使用维度建模或主题建模。总之,在数据仓库分层中,维度建模和主题建模在不同的层次发挥作用。维度建模主要应用于DWD和DWS层,而主题建模主要应用于DWT层。根据实际需求,ADS层可以选择维度建模或主。DWD(数据仓库详细层):在DWD层,数据仓库的建模主要采用维度建模。
2023-03-28 11:22:02 246
原创 如果你不懂指标体系,我强烈建议你看完这篇文章
指标体系,虽然对外透出的是各种指标、报表及看板,但其内在的核心,是对于一个行业深层次的认知,一套行业完整分析方法,这些都是在历年的积累中打磨出来的,在业务发展过程中探索出来的。久而久之,这些分析方法沉淀之后,形成一套完整的行业指标体系。因此,整个行业指标体系的建设与完善,离不开扎根在该行业数据工作者前赴后继、日积月累的奋斗。
2022-05-08 11:46:25 691
原创 Flink不止于计算,存算一体才是未来
未来,利用 Flink CDC、Flink SQL、Flink Dynamic Table 就可以构建一套完整的流式数仓,实现实时离线一体化及对应计算存储一体化的体验。那便是大数据技术,flink技术发展的又一个精进高度。
2022-03-25 12:30:11 2266
原创 大数据时代,数据湖技术Apache Iceberg的前世今生
一种技术,从出现到广泛的使用,有着他与生俱来的天性,同样有后天物竞天择适者生存的妥协。当下,数据湖技术天下三分,各有侧重,但它来自哪里,要去往何处,优势在哪里,需要补强的又是什么?
2022-03-21 09:01:29 409
原创 数据湖三剑客,大数据时代的新范式?
大数据技术发展到现阶段,逐渐出现了诸多的掣肘,不断有新的问题出现,仅仅就存储方面来讲,与数据库这样高度优化的技术相比,大数据技术的抽象和实现还是太原始和初级。这个时候,革命性的技术数据湖应运而生。
2022-03-03 20:03:19 146
原创 flink问题合集
1 flink web-ui task manager stdout 打印出来的中文乱码在flink_conf. yaml 添加以下内容env.java.opts: "-Dfile.encoding=UTF-8"
2021-10-20 17:26:11 172
原创 三方大数据平台问题修改
内存修改su - deploy/opt/workspace/executor-proxyvim ./sbin/env.sh
2021-08-30 17:52:03 142
原创 大数据集群,这些关键问题需要注意,持续更新
1 集群启动及初始化配置问题集群配置修改好后,往往需要重启。每个集群的重启方式不一样,需要根据集群具体设定。例如:我们现有第三方平台的重启方式为:sh /opt/workspace/executor-proxy/sbin/app.sh restart修改初始化内存分配的方式为:设置初始化内存为1gpwd/opt/workspace/executor-proxy/sbindiff env.sh env.sh.bak 8c8< export MEM=" -Xms1g -Xmx1
2021-08-17 13:20:59 460
原创 CDH 6.3.1正式环境安装过程及注意事项,帮你一步到位
第一部分 环境检查及准备:1.1 基础环境及镜像包准备1.1.1 基础环境要求 名称 地址 操作系统 root密码 cdh-0001 10.1.0.30 Centos 7.7 ***** cdh-0001 10.1.0.105 Centos 7.7 cdh-0001 .
2021-08-16 09:03:21 2678 2
原创 Linux 离线安装MySQL5.7
1、准备安装包自从从MySQL官网下载。下载地址:https://dev.mysql.com/downloads/mysql/5.7.html#downloads为了防止版本不同导致安装失败,可从百度网盘下载。mysql-5.7.34-linux-glibc2.12-x86_64.tar.gz2、解压安装包tar -xvf mysql-5.7.26-linux-glibc2.12-x86_64.tar再移动并重命名。mv mysql-5.7.26-linux-gli
2021-08-15 17:39:52 313
原创 CDH CM修改配置文件Data truncation: Incorrect string value: ‘\xE5\xB7\xB2\xE6\x9B\xB4...‘ for column ‘MESSA
Data truncation: Incorrect string value: '\xE5\xB7\xB2\xE6\x9B\xB4...' for column 'MESSAGE' at row 1cloudera server 端日志:Caused by: java.sql.BatchUpdateException: Incorrect string value: '\xE5\xB7\xB2\xE6\x9B\xB4...' for column 'VALUE' at row 1 ...
2021-08-11 22:52:30 414
原创 Hive 问题合集 持续更新
一 hive建表信息中文乱码:显示问号等问题现象:主要原因: 1 hive元数据库mysql 或者mariaDB 编码格式问题 2 hive元数据定义信息编码格式问题解决方案:对于第一种问题:修改配置文件在/etc/my.cnf文件中在[mysqld]标签下添加init_connect='SET collation_connection = utf8_unicode_ci'init_connect='SET NAMES utf8'character-set-se
2021-08-11 22:47:50 74
原创 flink数据广播场景总结
数据集广播,主要分为广播变量,广播维表(数据集)两种,一种为变量,一种为常量(抽象的说法);一.数据广播背景对于小变量,小数据集,需要和大数据集,大流进行联合计算的时候,往往把小数据集广播出去,整体直接和大数据集(流)的分布式最小粒度数据进行计算,最后把计算结果合并,这样效率更高,省去分布式节点之间的数据传输及二次计算。例如:在Flink使用场景中,外部的配置文件或计算规则及维表等进行预加载,并定期更新,流式计算中广播小变量等场景。数据集的广播,主要有以下几种方式可以实现1.预加载在
2021-08-11 22:46:00 1321
原创 CDH 时钟偏差 不良 : 无法找到主机的 NTP 服务,或该服务未响应时钟偏差请求。
首先:执行ntpstat,实时命令查看状态,结果发现所有服务器的状态都是未同步状态“unsynchronised”:然后,重启ntp服务、手动时间同步、再重启服务(全部机器执行):systemctl stop ntpdsudo ntpd -gqsystemctl start ntpd最后,执行timedatectl,查看服务器时间状态,发现NTP synchronized为true,说明时间同步成功了。并且各个节点与master之间的时间都保持...
2021-08-11 22:44:41 2938
原创 Flink 部署模式,session 、pre job、aplication三种主要模式
长久以来,在YARN集群中部署Flink作业有两种模式,即Session Mode和Per-Job Mode,而在Flink 1.11版本中,又引入了第三种全新的模式:Application Mode。本文先回顾两种传统模式的做法与存在的问题,再简要介绍Application Mode。传统部署模式Session模式Session模式是预分配资源的,也就是提前根据指定的资源参数初始化一个Flink集群,并常驻在YARN系统中,拥有固定数量的JobManager和TaskManager(注意JobMa
2021-08-11 22:43:31 5922
原创 最新版大数据平台安装部署指南,HDP-2.6.5.0,ambari-2.6.2.0
一、服务器环境配置1 系统要求 名称 地址 操作系统 root密码 Master1 10.1.0.30 Centos 7.7 Master2 10.1.0.105 Centos 7.7 Worker1 10.1..
2021-08-11 22:41:13 1039
原创 CDH Cloudera Manager namenode拉不起来或者namenode都处于禁用状态
CDH Cloudera Manager 进程服务名称systemctl status cloudera-scm-serversystemctl start cloudera-scm-agent格式化namenodecm 前端界面显示 ;namenode 因为 Service Monitor 未找到活动 NameNodenamenode后端日志:Journal Storage Directory /opt/hadoop/hdfs/journalnode/nameservice
2021-08-11 22:40:50 1880
原创 CDH HDP ambari CM问题合集,持续更新
一问题现象:namenode 数据块丢失NameNode Blocks HealthTotal Blocks:[5247], Missing Blocks:[4677]问题原因:datanode 或namenode数据 丢失 冗余副本数据不一致造成解决办法:删除丢失模块元数据,6小时后数据会自动同步相关指令:查看丢失数据块:hdfs fsck /简单删除丢失块命令行for (( i=0; i<100; i++ ))do hdfs fsck / |
2021-08-11 22:39:55 461 2
原创 Flink重启策略 flink出现异常重新拉起任务
重启策略概念:Flink支持不同的重启策略,可以控制在发生故障时如何重启新启动作业。重启策略分类:重启策略 重启策略值 描述 默认值 Fixed delay fixed-delay 尝试一个给定的次数来重启Job,如果超过了最大的重启次数,Job最终将失败。 启用 checkpointing,但没有配置重启策略,则使用固定间隔 (fixed-delay) 策略,默认值为Integer.MAX_VALUE Failure rate failure-
2021-08-11 22:38:04 2447
原创 CDH CM修改配置文件Data truncation: Incorrect string value: ‘\xE5\xB7\xB2\xE6\x9B\xB4...‘ for column ‘MESSA
Data truncation: Incorrect string value: '\xE5\xB7\xB2\xE6\x9B\xB4...' for column 'MESSAGE' at row 1cloudera server 端日志:Caused by: java.sql.BatchUpdateException: Incorrect string value: '\xE5\xB7\xB2\xE6\x9B\xB4...' for column 'VALUE' at row 1 ...
2021-07-07 14:07:39 420
原创 大数据框架exactly-once底层实现原理,看这篇文章就够了
一、大数据框架三种语义在分布式系统中,如kafka、spark、flink等构成系统的任何节点都是被定义为可以彼此独立失败的。比如在 Kafka 中,broker 可能会 crash,在 producer 推送数据至 topic 的过程中也可能会遇到网络问题。根据 producer 处理此类故障所采取的提交策略类型,有如下三种(以kafka为例):at-least-once:如果 producer 收到来自 Kafka broker 的确认(ack)或者 acks = all,则表示该消息已
2021-04-09 00:16:35 238
原创 数据治理开始前,先掌握这个元数据治理神器-Atlas
一、Atlas是什么?在当今大数据的应用越来越广泛的情况下,数据治理一直是企业面临的巨大问题。大部分公司只是单纯地对数据进行了处理,而数据的血缘,分类等等却很难实现,市场上也急需要一个专注于数据治理的技术框架,这时Atlas应运而生。Atlas官网地址:https://atlas.apache.org/Atlas是Hadoop的数据治理和元数据框架。Atlas是一组可扩展和可扩展的核心基础治理服务,使企业能够有效,高效地满足Hadoop中的合规性要求,并允许与整个企业数据生态系统集成。
2021-03-30 23:32:14 383
原创 学习推荐系统之前,请先看完这个技术方案
推荐系统技术方案目录推荐系统技术方案目录第一章 综述......................................................................................... 11.1 项目背景............................................................................... 11.2 应用场景...
2021-03-24 00:48:56 329
原创 Hbase和Hive的区别与联系
共同点:1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别:1. Hive中的表是纯逻辑表,就只是表的定义等,即表的元数据。Hive本身不存储数据,它完全依赖HDFS和MapReduce。这样就可以将结构化的数据文件映射为为一张数据库表,并提供完整的SQL查询功能,并将SQL语句最终转换为MapReduce任务进行运行。 而HBase表
2017-05-25 20:00:38 1494
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人