寧三一-CSDN博客

原创 IDEA Kafka:The configuration ‘xxx‘ was supplied but isn‘t a known config

【代码】IDEA Kafka:The configuration ‘xxx‘ was supplied but isn‘t a known config。

2023-03-14 19:58:20 4424 4

原创 IDEA Kafka：Connection to node -2 could not be established. Broker may not be available

[Consumer clientId=consumer-2, groupId=null] Connection to node -2 could not be established. Broker may not be available.

2023-03-14 11:15:17 2741

原创 Flink：The generic type parameters of ‘Collector‘ are missing 类型擦除

The generic type parameters of 'Collector' are missing. In many cases lambda methods don't provide enough information for automatic type extraction when Java generics are involved缺少“Collector”的泛型类型参数。在许多情况下，当涉及Java泛型时，lambda方法不能为自动类型提取提供足够的信息

2023-03-01 08:57:35 1398

原创 IDEA Maven：idea Could not find artifact org.glassfish:javax.el

idea 找不到工件 org.glassfish:javax.el

2023-02-06 11:17:38 1472

原创 SQL Group_concat 函数

group_concat 函数，分组并合并列表

2022-12-12 22:04:06 554

原创 Flume 基础概述（体系架构、执行流程、事务）

Flume 基础概述概述概念Flume是一个分布式、可靠、和高可用的海量日志聚合的系统Flume 官网作用1、支持在系统中定制各类数据发送方，用于收集数据2、同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。应用场景1、线上数据一般主要是落地（存储到磁盘）或者通过socket传输给另外一个系统2、这种情况下，你很难推动线上应用或服务去修改接口，实现直接向kafka里写数据3、这时候你可能就需要flume这样的系统帮你去做传输。Flume的体

2022-02-09 21:22:47 3448

原创 DataX 简介及架构原理

DataX 简介及架构原理概述DataX是阿里巴巴使用 Java 和 Python 开发的一个异构数据源离线同步工具异构数据源：不同存储结构的数据源致力于实现包括关系型数据库 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS等各种异结构数据源之间稳定高效的数据同步功能 - Sqoop 是用于在与 RDBMS 之间数据迁移工具 - DataX 是阿里开

2022-02-03 23:04:44 8689

原创 uTools 新一代效率工具平台 —— 一切皆插件，自取所需（亲测好用）

uTools 新一代效率工具平台uTools 官网用了一段时间，发现确实轻量功能丰富，一定程度上提高了开发效率，而且还可以摸鱼一切皆插件，自取所需每个人遇到的问题各不相同，uTools 优秀的插件化设计，让你可以自取所需，任意组合插件一般仅数百 KB 大小，简洁美观、没有广告，解决你的问题，一个插件即可功能多样呼之即来，用完即走在任何界面下通过快捷键「Alt + 空格」呼出 uTools，或是点击鼠标中键呼出超级面板一个软件该有的样子：即用即走，无打扰，不中断你当下的工

2022-01-13 11:40:12 9758 2

原创什么是 Promethues | 普罗米修斯（集群监控系统）

Promethues 监控系统Prometheus 是个啥Prometheus是由SoundCloud开发的开源监控报警系统和时序列数据库(TSDB)。Prometheus使用Go语言开发，是Google BorgMon监控系统的开源版本。监控系统什么是监控系统1、监控系统在这里特指对数据中心的监控，主要针对数据中心内的硬件和软件进行监控和告警2、随着技术不断迭代，越来越复杂的数据中心环境对监控系统提出了更越来越高的要求：需要监控不同的对象，例如容器，分布式存储，SDN网络，分布式系统

2022-01-09 10:42:26 2921

原创 Flink 集群架构（JobManager、ResourceManager、 TaskManager、Dispatcher）

Flink集群架构概念Flink采用Master-Slave架构，其中JobManager作为集群Master节点，主要负责任务协调和资源分配，TaskWorker作为Salve节点，用于执行流task架构模型Flink运行时架构主要包括四个不同的组件，它们会在运行流处理应用程序时协同工作作业管理器（JobManager）资源管理器（ResourceManager）任务管理器（TaskManager）分发器（Dispatcher）Flink是用Java和Scala实现的，所以

2021-12-26 11:10:26 5009

原创什么是 Flink (流处理框架)

Flink 入门什么是FlinkApache Flink 是为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架Flink 官网Flink 的发展历史d Flink 诞生于欧洲的一个大数据研究项目 StratoSphere。该项目是柏林工业大学的一个研究性项目。早期，Flink 是做 Batch 计算的，但是在 2014 年， StratoSphere 里面的核心成员孵化出 Flink，同年将 Flink 捐赠 Apache，并在后来成为 Apache 的顶

2021-12-24 00:02:10 2531

原创 VMware Workstation 与 Device/Credential Guard 不兼容。禁用 Device/Credential Guard

目录问题描述解决方案方法一：方法二：问题描述升级 Win11 后，启动虚拟机报错如下：就是版本不兼容，需要禁用一些功能，才能继续运行虚拟机估计是个人版，没这功能，它还默认开启的，关闭就行解决方案方法一：1、进入文件：控制面板 -> 程序和功能 -> 启动或关闭 Windows 功能2、把下图这俩功能关闭，重启就好了方法二：也可以通过命令关闭1、win + x 快捷键，以管理员身份运行Windows Powershell 管理员命令终端2、关闭命

2021-12-16 09:36:41 8195

原创什么是 Kylin （分布式分析引擎）

Kylin什么是Kylin概念Apache Kylin （ Extreme OLAP Engine for Big Data ）是一个开源的分布式分析引擎，为 Hadoop等大型分布式数据平台之上的超大规模数据集通过标准 SQL 查询及多维分析（ OLAP ）功能，提供亚秒级的交互式分析能力。特点它提供 Hadoop 之上的 SQL 查询接口及多维分析（ OLAP ）能力以支持大规模数据，能够处理 TB 乃至 PB 级别的分析任务，能够在亚秒级查询巨大的Hive 表，并支持高并发。Ky

2021-12-14 23:43:05 2212

原创什么是 Scala （运算、集合、函数、循环）

目录什么是 Scala简介概念六大特征Scala 应用场景标识符数据类型运算常量与变量运算符表达式集合列表数组定义函数Scala常用数据类型声明函数函数函数组合器循环判断（1）判断（2）循环什么是 Scala简介概念scala 是一门以 jvm 为运行环境的静态类型编程语言，具备面向对象及函数式编程的特性六大特征1、Java 和 scala 可以混编2、类型推测(自动推测类型)3、并发和分布式（ Actor）4、特质，特征(类似 java 中 interfaces 和 abstrac

2021-12-14 19:45:19 2662

原创 idea Spark ：A master URL must be set in your configuration 解决方案

问题描述idea 环境运行 Spark 代码时出现异常：SparkException : A master URL must be set in your configuration # 必须在配置中设置主URL解析根据翻译可知找不到 Master用于配置 Master 的几种主要 Spark 运行模式1、Local ：本地多用于本地测试，如在 eclipse，idea 中写程序测试等local 本地单线程local[K] 本地多线程（指定K个内核）local[*] 本地多线程（

2021-12-08 15:14:51 1893

原创什么是 ClickHouse（实时数据分析数据库）

什么是 ClickHouse软件介绍简介1、ClickHouse 是俄罗斯搜索巨头 Yandex 公司早 2016年开源的一个极具 " 战斗力 " 的实时数据分析数据库，开发语言为C++2、是一个用于联机分析 (OLAP:Online Analytical Processing) 的列式数据库管理系统(DBMS:Database Management System)，简称 CK3、工作速度比传统方法快100-1000倍，ClickHouse 的性能超过了目前市场上可比的面向列的DBMS。每

2021-12-05 14:42:29 12440

原创 Kafka 消费者数据安全（RangeAssignor，RoundRobinAssignor， StickyAssignor分配策略）

消费者数据安全说明：所有流程图均来自：Kafka 消费者数据安全策略流程图一、消费方式说明1、Consumer 采用 Pull（拉取）模式从 Broker 中读取数据。Consumer 采用 Push（推送）模式，Broker 给 Consumer 推送消息的速率是由 Broker 决定的，很难适应消费速率不同的消费者。它的目标是尽可能以最快速度传递消息，但是这样很容易造成 Consumer 来不及处理消息，典型的表现就是拒绝服务以及网络拥塞2、而 Pull 模式则可以根据

2021-12-03 18:59:33 1699 1

原创 Kafka 生产者数据安全（ACK机制，ACK时机，ACK应答机制，故障处理，Exactly Once）

生产者数据安全一、数据分区图解分区原因1、方便在集群中扩展，每个 Partition 可以通过调整以适应它所在的机器2、一个 Topic 又可以有多个 Partition 组成，因此可以以 Partition 为单位读写了‘3、可以提高并发，因此可以以 Partition 为单位读写分区原则将 Producer 发送的数据封装成一个 ProducerRecord 对象。对象包含：topic：string 类型，NotNull。partition：int 类型，可选。tim

2021-12-01 11:58:16 2321 1

原创 Kafka系统架构（ Broker，Topic， Partition，Replication）

Kafka系统架构一、Broker 服务器节点概念Kafka 集群包含一个或多个服务器，服务器节点称为broker描述就是Kafka集群replication的名称二、Topic 主题|消息类别概念每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic描述1、在Kafka 中一张表就是一个主题2、类：table index3、将来会根据业务的不同创建不同的主题4、创建流程：首先创建主题，然后选择 Partition和Replication说

2021-11-30 20:30:46 5885 1

原创什么是Kafka

什么是Kafka网址： Kafka 官网描述：Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。Kafka的优点1、解耦：允许我们独立的扩展或修改列两边的处理过程2、扩展性：因为消息队列解耦了你的处理过程，所以增大消息入队和处理的频率是很容易的，只要另外增加处理过程即可。3、流量削峰：高流量的时候，使用消息队列作为中间件可以将流量的高峰保存在消

2021-11-28 15:06:06 5100

原创 Hadoop 2.0x：HDFS写入数据宏观和微观流程

HDFS写数据流程宏观流程图解描述写数据就是将客户端的数据上传到HDFS流程1、客户端向HDFS发送写数据请求hdfs dfs -put user.txt /data/2、 filesystem通过rpc调用namenode的create方法1、 nn首先检查是否有足够的空间权限等条件创建这个文件,或者这个路径是否已经存在，权限1、有：NN会针对这个文件创建一个空的Entry对象,并返回成功状态给DFS2、没有：直接抛出对应的异常，给予客户端错误提示信息

2021-11-21 18:16:56 1298

原创 Hadoop集群手动主备切换（Active - Standby）

操作描述：手动切换 node01 备用节点 StandbyNameNode 为主节点 ActiveNameNode，node02为备用节点SNN解决方案：方案一：命令切换查看节点状态hdfs haadmin -getServiceState nn1命令切换节点状态到 hadoop 目录下执行：1、将 NN2 切换为 Standby 备用节点bin/hdfs haadmin -transitionToStandby --forcemanual nn22、将 NN1 切换为 Ac

2021-11-20 09:52:14 17689

原创 HBase数据模型（NameSpace、 RowKey、Column Family 列簇）

HBase数据模型概念描述HBase 是一个稀疏的、分布式、持久、多维、排序的映射，它以**行键（row key），列簇（columnFamily），列名（Column Qualifier）和时间戳（timestamp）**为索引。图解注意1、MySQL使用行+ 列定位数据2、HBase类似于坐标系（x,y,z），多维定位数据3、HBase 列簇、列名、时间戳，面向列进行存储数据结构内容NameSpace 命名空间 | 数据库注意1、命名空间是类似于关系数据

2021-11-17 16:08:42 3599 1

原创 HBase 0.96 前后版本描述及读取写入流程

前言HBase是如何做到表中数据量达到TB级或PB级时数据读取可以做到毫秒级实现表中数据的快速访问，通用的做法是数据保持有序并尽可能的将数据保存在内存里。HBase也是这样实现的。HBase面对于海量级的数据如何解决存储的问题数据存储上， HBase将表切分成小一点的数据单位 region，托管到 RegionServer上，和以前关系数据库分区类似。但比关系数据库分区、分库易用。这一点在数据访问上，HBase 对用户是透明的。数据被切分成多个 ...

2021-11-16 17:35:08 1198

原创 beeline : Error: Could not open client transport with JDBC | datagrip UnknownHostException: xxxx连接失败

报错信息Error: Could not open client transport with JDBC Uri: jdbc:hive2://node01:10000: java.net.ConnectException: Connection refused (Connection refused) (state=08S01,code=0)错误：无法打开具有JDBC Uri的客户端传输：JDBC:hive2://node01:10000:java.net.ConnectException:连接被

2021-11-14 20:00:04 6896 3

原创 Hadoop 重新格式化NameNode

目录一、重新格式化 NameNode1、删除hadoop 三台节点配置路径下的残留文件（1）core-site.xml删除/usr/local/src/hadoop/tmp目录（2）hdfs-site.xml删除/usr/local/src/hadoop/dfs/name目录（3）hdfs-site.xml2、手动创建配置文件4、启动集群后重新格式化NN 第一次格式化失败后，需要删除格式化失败...

2021-11-12 22:38:38 15265

原创 mysql 5.7 和 8.0 免密后修改root密码

目录一、mysql 5.7 版本1、修改配置2、修改权限密码3、修改配置文件my.cnf，删除skip-grant-tables4、重启mysql服务5、重新登录二、mysql 8.0 版本1、查找密码并登陆Mysql2、修改Mysql密码 8.0版本输入命令一、mysql 5.7 版本1、修改配置[root@master mysql-5.7.18]# vi /etc/my.cnf在最后面新增：skip-grant-tables ...

2021-11-12 19:24:09 1508

原创 Hive 重新格式化（格式化失败）

操作流程1、有删，无跳过[root@master ~]# hadoop fs -rmr /user/# 删除hive格式化中创建的hive数据库mysql> drop database hive;# 手动创建hive数据库mysql> create database hivedefault charset utf8; # hive-site.xml 如有以下配置可不用创建数据库<property><name>javax...

2021-11-11 21:23:19 4327

原创 Hadoop：Browse Directory Couldn‘t upload the file

问题描述Hadoop web 界面无法上传文件原因 HDFS的权限。 HDFS自带权限设置，但控制效力较弱。基本只能防止使用者的误操作，不能抵抗入侵者的破坏。基本属于：你告诉它你是谁，它就认为你是谁。思路：所以这里只需要让 HDFS 客户端认为你是root用户即可。解决方案配置环境变量：将HADOOP_U...

2021-11-08 20:22:48 7513 3

原创磁盘阵列（Raid分类与条带化）

Raid简介 Redundant Arrays of Independent Disks（独立磁盘冗余阵列）思考：将数据存放在多块磁盘解决IO问题磁盘阵列磁盘阵列是由很多块独立的磁盘，组合成一个容量巨大的磁盘组，利用个别磁盘提供数据所产生加成效果提升整个系统效能。利用这项技术，将数据切割成许多区段，分别存放在各个硬盘上。磁盘阵列还能利用同位检查（Parity Check）的观念，在数组中任意一个硬盘故障时，仍可读出数据，在

2021-11-07 20:15:00 3717

原创 Linux：Shell 脚本语言 Xmind

资源路径：https://download.csdn.net/download/weixin_51967583/35432540

2021-10-29 23:26:01 217

原创 Linux时间与日期自动同步网络时间中心|同步本地NTP服务

目录Linux如何设置主机自动同步网络时间中心？作用：实现主机同步本地时间。1. 首先安装时间同步的服务2. 自动同步网络时间中心Linux如何设置自动同步网络时间中心本地NTP服务？作用：实现其他节点机同步主机时间1.NTP服务器2.开启本地NTP服务器3.同步时间Linux如何设置主机自动同步网络时间中心？作用：实现主机同步本地时间。1. 首先安装时间同步的服务yum install ntp -y2. 自动同步网络时...

2021-10-29 22:54:49 471

原创 Linux:禁用软件安装限制

修改配置文件：vi /etc/selinux/config保存退出

2021-10-25 17:47:23 844

原创 Maven 编译插件

编译插件作用：统一管理编译版本号 <build> <plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-compiler-plugin</artifactId> <versi

2021-10-21 19:40:02 257

原创高可用ZooKeeper集群部署

一、ZooKeeper安装部署步骤一：解压安装jdk（基础环境，不做赘述）步骤二：安装ZooKeeper# 创建解压目录[root@redis ~]# mkdir -p /usr/local/zookeeper# 解压ZooKeeper[root@redis ~]# tar -zxvf apache-zookeeper-3.6.1-bin.tar.gz -C /usr/local/zookeeper/# 修改解压名[root@redis ~]# mvapache-zook.

2021-10-16 20:05:38 447

原创 Elasticsearch导入MySQL数据执行bin/logstash -f命令报错

目录报错一问题描述：解决方法：报错二问题描述：解决办法：报错一问题描述：Unable to connect to database. Tried 1 times {:error_message=>"Java::JavaSql::SQLException: Access denied for user 'root'@'localhost' (using password: YES)"}解决方法：无法连接数据库。有可能是所导入数据库的配置文...

2021-10-12 19:57:49 604

原创 Idea：RabbitMQ六种模式队列

前言术语1. ProducingProducing意思不仅仅是发送消息。发送消息的程序叫做producer生产者。2. QueueQueue是一个消息盒子的名称。它存活在 RabbitMQ 里。虽然消息流经 RabbitMQ 和你的应用程序，但是他们只能在 Queue 里才能被保存。Queue 没有任何边界的限制，你想存多少消息都可以，它本质上是一个无限的缓存。许多生产者都可以向一个 Queue 里发送消息，许多消费者都可以从一个 Queue 里接收消息。...

2021-10-10 21:49:29 931

原创 RabbitMQ管理界面基本操作

前言RabbitMQ默认提供guest用户，密码为guest用于登录MQ主界面添加用户添加用户，默认用户 guest 角色为管理员，一般开发环境下会创建新的用户并对权限进行分配。添加shop用户并对权限进行分配用户添加完毕，用户列表显示用户状态是 No access ,代表用户未进行权限分配，不能进行任何操作，这里创建用户分配权限可以类比数据库中创建用户并分配权限操作。分配权限（1）创建 virtua...

2021-10-10 12:40:26 2319

原创 Linux: RabbitMQ 简介及环境搭建

MQ简介消息队列（ Message queue ）是一种进程间通信或同一进程的不同线程间的通信方式。软件的贮列用来处理一系列的输入，通常是来自用户。消息队列提供了异步的通信协议，每一个贮列中的纪录包含详细说明的数据，包含发生的时间，输入设备的种类，以及特定的输入参数，也就是说：消息的发送者和接收者不需要同时与消息队列互交。消息会保存在队列中，直到接收者取回它。特点MQ是消费者-生产者模型的一个典型的代表，一端往消息队列中不断写入消息，而另一...

2021-10-10 11:08:30 316

原创 Linux: Nginx 反向代理与负载均衡环境搭建

Nginx简介Nginx是一款高性能的http 服务器/反向代理服务器及电子邮件（IMAP/POP3）代理服务器。由俄罗斯的程序设计师Igor Sysoev所开发，官方测试nginx能够支支撑5万并发链接，并且cpu、内存等资源消耗却非常低，运行非常稳定。负载均衡负载均衡（Load Balance）是由多台服务器以对称的方式组成一个服务器集群，每台服务器都具有等价的地位，都可以单独对外提供服务而无需其他服务器的辅助。经过某种负载分管技术，将外部发送来的中央请求...

2021-10-09 21:17:06 357