Kathy-zyh-CSDN博客

原创记 DolphinScheduler 3.0.1数据质量使用

DolphinScheduler 3.0.1数据质量使用

2022-11-08 17:45:55 2480 1

原创 azkaban配置邮件预警

配置层面1. apache平台只需在azkaban-web/conf/azkaban.properties配置文件中添加邮箱配置即可2. CDH平台CDH平台由于云平台禁用了smtp的25端口，所以需要将配置的端口换成465，同时需要改动azkaban源码1. azkaban源码编译1.停止服务2.备份原文件3.修改azkaban-common/src/main/java/azkaban/utils/EmailMessage.java文件头引入包：import java.securi

2021-06-29 15:30:46 1293

原创 azkaban多项目之间依赖检查执行

azkaban多项目之间依赖检查执行编写检测脚本（python3），azkaban_project_auto.py，内容如下：# coding=UTF-8#!/usr/bin/python3# @Desc: 处理Azkaban project执行流水线import sysimport timeimport pymysql.cursorsimport requestsimport clickimport jsonAZKABANURL = 'http://ip:port'USER

2021-06-29 11:16:46 1558

原创 azkaban启动避坑

azkaban启动时必须在bin目录外面输入如下启动命令，否则会有各种问题bin/start-exec.shbin/start-web.sh

2021-06-29 10:45:05 966

原创 mysql自动创建/删除分区的存储过程

存储过程创建：mysql对应库下得存储过程右键选择新建存储过程存储过程代码CREATE DEFINER=`root`@`%` PROCEDURE `库名`.`insert_partition`(beginDate datetime,endDate datetime)BEGIN DECLARE nowdate date;DECLARE endtmp date;declare dt VARCHAR(256);declare partitionTemp VARCHAR(256..

2021-02-23 09:37:51 1272 2

原创 idea日志打印级别设置（log4j.properties）

log4j.rootLogger=error, stdout,Rlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderlog4j.appender.stdout.layout=org.apache.log4j.PatternLayoutlog4j.appender.stdout.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss,SSS} %5p — [%50t] %-80c(line:%5L) :

2021-01-06 20:54:35 1187

原创 flatMap和Map的区别理解

flatMap和Map的区别理解结合下图来理解：Map：数据的映射转换，数据集中的每一条都数据通过函数进行转换，输入多少条，输出多少条如list中的("A",1) 通过函数（t._1 + t._2）操作后变成 "A1"flatMap：扁平映射，数据集中的每条数据通过函数进行映射转换后再进行拆解，输出条数通常多余输入条数如list中的("A",1) 通过函数（t._1 + t._2）操作后变成 "A1"，然后拆解为A，1两条数据...

2020-10-23 19:05:24 589

原创为什么重写equals时要重写hashcode？

为什么重写equals时要重写hashcode？Object类的equals方法说明中提到：相等对象必须有相等的哈希码![在这里插入图片描述](https://img-blog.csdnimg.cn/2020101918335546.png#pic_center假定有两个对象u1和u2：User u1 = new User(“zhangsan”,24);User u2 = new User(“zhangsan”,24);Object类中：equals方法判断的是两个对象的地址，而通常

2020-10-19 19:06:46 252

原创 NoSQL三剑客之----Redis

NoSQLNoSQL：Not only SQL的缩写,即不仅仅是SQL，说明是关系型数据库的补充而非替代MemCache、Redis、MongoDB被称为NoSQL三剑客MemCache和Redis区别：memcache只支持String，redits支持5大类型memcache不能持久化，redits支持memcache是多线程的，redits是单线程的关系型数据库和NoSQL比较：可看出NoSQL的最大优势体现为：高性能、高可用性、伸缩性Redis定义Redis是开源的

2020-10-16 21:25:14 616 1

原创 kafka碎记

这里写自定义目录标题kafka定义kafka基础架构kafka工作流程kafka定义kafka是分布式的基于发布/订阅模式（一对多，消费者消费消息之后不会被清除）的消息队列kafka基础架构–producer：生产者，生产消息到topic–consumer：消费者，从topic中消费消息–broker：kafka集群中，每台服务器就是一个broker–topic：消息逻辑上以topic形式，物理上以partition存放，每个topic可有多个partition，每个pa

2020-10-16 19:02:16 136

原创 hdfs-ha----故障自动转移工作机制（NN切换）

hdfs-ha集群中有两个NN，一台运行（active），一台作为热备(standby)，当运行NN挂了，热备可以立即顶上hdfs-ha要点元数据管理方式–两个NN各自保存一份元数据–编辑日志只有active状态的NN才能写，standby状态的只能读取–两个NN间数据同步通过QJM集群实现，共享的edits放在QJM集群中，active往edits中写入，standby从edits中读取NN状态管理– 每个NN中都自带一个zkfc组件，负责监控所在的NN节点，当需要进行状态切换时，

2020-09-26 21:17:39 517

原创 Zookeeper--选举机制等原理

这里写自定义目录标题Zookeeper概述Zookeeper特点监听原理选举机制写数据流程Zookeeper概述协调分布式环境；Zookeeper相当于文件文件系统+通知机制，存储服务器信息，并将变化通知给客户端以便其做出反应Zookeeper特点一个leader，多个follower集群中只要半数以上服务器存货，就可启动集群zookeeper集群中所有服务器数据始终保持一致监听原理–1. 主线程main中创建Zookeeper客户端时会创建sedThread和eventThre

2020-09-26 21:14:25 511 1

原创 Hadoop----yarn篇

这里写自定义目录标题Yarn概述Yarn组成Yarn工作机制调度器Yarn概述Yarn ，负责hadoop中的资源调度，相当于一个分布式的操作系统，mapreduce等程序运行于yarn上Yarn组成1.RM（Resource Manager）处理客户端请求监控各个node manager的资源开启AM分配和调度资源注：RM只负责资源的管理和发放，不负责程序的运行2. NM（Node Manager）管理单个服务器上的资源并向RM汇报3. AM（APP Master）

2020-09-26 21:13:23 145

原创 Hadoop----MapReduce篇

这里写自定义目录标题MapReduce概述MapReduce特点MapReduce框架原理Shuffle机制其他关键点MapReduce概述MapReduce ，负责hadoop中的应用程序计算MapReduce特点1.易于编程通过简单的实现一些接口，就可完成分布式程序2. 良好的扩展性可通过简单的增加服务器，提高计算能力3. 高容错性其中一台机器挂了，可将上面的计算任务转移到另一个节点上运行，不至于该任务运行失败MapReduce框架原理1. NN(Name

2020-09-26 21:12:19 116

原创 Hadoop----hdfs篇

这里写自定义目录标题hdfs概述hdfs特点hdfs组成架构hdfs读写流程hdfs-NN和2NN工作机制（NameNode和SecondaryNameNode）hdfs-DN工作机制（DataNode）hdfs概述HDFS(Hadoop Distributed File System)，是一个文件系统，用于存储文件。它是分布式的，由多个服务器联合起来实现其功能。**使用场景：**适合一次写入多次读取的场景，不支持文件修改，但可追加hdfs特点1.高容错性自动保存多个副本（默认3个），

2020-09-26 21:10:55 106

zyh1234456的博客