augie_ly-CSDN博客

原创 idea代码爆红解决方案

2、点击Invalidate and Restart

2023-03-07 11:37:07 1579

原创 java.lang.ClassNotFoundException: org.apache.flink.connector.base.source.reader.RecordEmitter解决

解决ClassNotFoundException: org.apache.flink.connector.base.source.reader.RecordEmitter问题。

2023-02-17 11:22:29 2036

原创 FlinkCDC作业处理慢追不上binlog产生的速度，导致binlog被清理的解决方案

Caused by: java.lang.IllegalStateException: The connector is trying to read binlog starting at Struct{version=1.6.4.Final,connector=mysql,name=mysql_binlog_source,ts_ms=1668149633760,db=,server_id=0,file=mysql-bin.003889,pos=116719908,row=0}, but this is n

2023-02-14 15:49:21 3583

原创连接RDS MySQL时报错has more than ‘max_user_connections‘已解决

我出现这个问题是因为有一个Flink jar任务出现异常，一直在自动重启。由于之前测试程序把释放连接的代码注释掉了，导致了连接数已满，不能正常连接。通过数据库客户端无法连接RDS MySQL数据库，且提示“max_user_connections”相关错误信息。RDS MySQL数据库的连接数已满，导致不能正常连接。：把释放连接的代码放开重新打包发布到集群运行。检查代码中有没有释放连接。

2023-02-13 17:57:59 346

原创 Flink1.15.0——guava版本冲突解决

flink 1.15 和 1.13 使用的 flink-shaded-guava 版本不一样，两个版本不兼容，需要修改 cdc 中的 flink-shaded-guava 版本为 flink 1.15 依赖的版本。

2023-02-13 17:28:09 4031

原创 Cause: java.sql.SQLException: No operations allowed after statement closed.

Cause: java.sql.SQLException: No operations allowed after statement closed.

2023-02-08 16:29:12 1455

原创数仓分析需要了解的5大SQL分析函数

基本语法analytic_function_name([argument_list])OVER ([PARTITION BY partition_expression,…][ORDER BY sort_expression, … [ASC|DESC]])analytic_function_name: 函数名称 — 比如 RANK(), SUM(), FIRST()等等 partition_expression: 分区列 sort_expression: 排序列案例数据准备

2020-11-26 19:56:19 709

原创 2＞/dev/null和＞/dev/null 2＞&1和2＞&1＞/dev/null的区别

一、区别：2>/dev/null意思就是把错误输出到“黑洞”>/dev/null 2>&1默认情况是1，也就是等同于1>/dev/null 2>&1。意思就是把标准输出重定向到“黑洞”，还把错误输出2重定向到标准输出1，也就是标准输出和错误输出都进了“黑洞”2>&1 >/dev/null意思就是把错误输出2重定向到标准出书1，也就是屏幕，标准输出进了“黑洞”，也就是标准输出进了黑洞，错误输出打印到屏幕二、解释：1、文件描述符

2020-11-20 21:15:43 267

原创 Hadoop之常见压缩格式

前言为什么会出现需要对文件进行压缩？在Hadoop中，文件需要存储、传输、读取磁盘、写入磁盘等等操作，而文件的大小，直接决定了这些这些操作的速度。1.压缩的好处和坏处好处减少存储磁盘空间降低IO(网络的IO和磁盘的IO)加快数据在磁盘和网络中的传输速度，从而提高系统的处理速度坏处由于使用数据时，需要先将数据解压，加重CPU负荷。而且压缩的越狠，耗费的时间越多。2.压缩格式支持native表示，hadoop自己提供了功能的实现，而不是依赖外部，如bzip2是不支持native，则表示

2020-11-19 19:23:52 709

原创 Error:(45, 80) Static methods in interface require -target:jvm-1.8

在Flink1.11中使用WatermarkStrategy类中的方法时可能会报如下异常：Error:(45, 80) Static methods in interface require -target:jvm-1.8.assignTimestampsAndWatermarks(WatermarkStrategy.forBoundedOutOfOrderness[LogEvent](Duration.ofSeconds(2))解决办法：在File -> Settings中按图设置即.

2020-11-05 18:33:24 332 2

原创 java.sql.SQLException: Unable to load authentication plugin ‘caching_sha2_password‘

今天在跑一个flink程序，往MySQL存数据的时候，报这个错。最后发现主要原因是8.x版本的验证模块和5.x版本不同：5.x版本是：default_authentication_plugin=mysql_native_password8.x版本是：default_authentication_plugin=caching_sha2_password更新mysql驱动的版本，这里我修改为了8.0.20版本。<!-- https://mvnrepository.com/artifact/

2020-10-31 16:58:01 342

原创解决Flink中could not find implicit value for evidence parameter of type报错

报错信息如图：原因分析：在flink中的大部分算子中，并没有默认的隐式类型参数的定义，我们在使用时也没有显式地指定类型，因此会报类型异常。解决方案：import org.apache.flink.api.scala._代码如下：package com.jh.wcimport org.apache.flink.api.scala._import org.apache.flink.api.scala.{AggregateDataSet, DataSet, ExecutionEnvironme

2020-10-28 20:26:09 257

原创 storm和sparkStreaming的对比？

（1）如果需要毫秒级的响应，选择storm,其他所有的方面选择spark Streaming。（2）Storm是一条一条处理的。处理的是新增的某一笔数据。spark Streaming是按照批次处理的，也就是按时间段进行处理的，与内容无关。（3）Spark Streaming也是可以一条一条进行处理，需要一个机制，一般是利用kafka。数据来自不同的终端，推送给Kafka，kafka是最好的消息中间件，是一个集群，可以处理任意规模的数据，spark Streaming会从kafka中获取数据，进行处理。

2020-10-27 20:13:08 269

原创 Spark性能优化一篇就够了

一，Spark性能优化：开发调优1.避免创建重复的RDD对于同一份数据，只应该创建一个RDD，不能创建多个RDD来代表同一份数据。否则Spark作业会进行多次重复计算多个代表相同数据的RDD，进而增加了作业的性能开销。2.尽可能复用同一个RDD对于多个RDD的数据有重叠或者包含的情况，我们应该尽量复用一个RDD，这样可以尽可能地减少RDD的数量，从而尽可能减少算子执行的次数。3.对多次使用的RDD进行持久化或chickPoint每次你对一个RDD执行一个算子操作时，都会重新从源头处计算一遍，计算

2020-10-24 18:47:31 794

原创 spark序列化？

序列化的作用是将对象或者其他数据结构转换成二进制流，便于传输，后续再使用反序列化将其还原。因为二进制流是最便于网络传输的数据格式。序列化对于提高分布式程序的性能起到非常重要的作用。一个不好的序列化方式（如序列化模式的速度非常慢或者序列化结果非常大）会极大降低计算速度。很多情况下，这是你优化Spark应用的第一选择。Spark试图在方便和性能之间获取一个平衡。Spark提供了两个序列化类库：Java 序列化：在默认情况下，Spark采用Java的ObjectOutputStream序列化一个对象。该方式适

2020-10-24 09:26:47 553 1

原创什么是MongoDB？CRUD？

MongoDB简介MongoDB 是由C++语言编写的，是一个基于分布式文件存储的开源数据库系统。在高负载的情况下，添加更多的节点，可以保证服务器性能。MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB 将数据存储为一个文档，数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON对象。字段值可以包含其他文档，数组及文档数组。MongoDB 创建数据库：use DATABASE_NAME如果数据库不存在，则创建数据库，否则切换到

2020-10-23 19:55:33 856

原创常用的非关系型数据库？

列存储：Hbase、Cassandra、Hypertable顾名思义，是按列存储数据的。最大的特点是方便存储结构化和半结构化数据，方便做数据压缩，对针对某一列或者某几列的查询有非常大的IO优势。文档存储：MongoDB、CouchDB文档存储一般用类似json的格式存储，存储的内容是文档型的。这样也就有机会对某些字段建立索引，实现关系数据库的某些功能。key-value存储：Tokyo Cabinet / Tyrant、Berkeley DB、MemcacheDB、Redis可以通过key快速查询

2020-10-23 19:42:56 266

原创 Flume启动命令

bin/flume-ng agent -n a1 -c conf -f conf/myconf/youmeng2hdfs.conf -Dflume.root.logger=INFO,console

2020-10-22 20:45:37 971

原创 Hive总结及优化

1.hive是什么？hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的

2020-10-22 20:27:07 1886 2

weixin_43777152的博客