![](https://i-blog.csdnimg.cn/columns/default/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据开发中的各种坑
文章平均质量分 93
游走的bit
这个作者很懒,什么都没留下…
展开
-
[Spark2.4] 增加Prometheus Sink带来的问题,并通过源码分析原因
背景当前有一个multi-module project,其中有ModuleA,ModuleB,ModuleC。ModuleA中定义了main函数,会通过SPI和反射等机制,从ModuleC中加载Spark foreachRDD方法的具体执行逻辑。ModuleB中定义了sparkstreaming context的配置,以及DStream的处理顺序。ModuleC中主要定义了foreachRDD的具体执行逻辑,例如将RDD对象反序列化后,写入Hbase中。三个Module的mvn依赖关系如原创 2022-01-27 17:01:43 · 2021 阅读 · 0 评论 -
Flink SqlServer CDC Listener线程无故消失问题
目录问题描述问题排查思路确认Listener状态Java异常体系捕获ThrowableThreadPoolExecutor的线程无故丢失问题Java Heap OOM解决方案:问题描述 代码不方便展示,只大概介绍一下sqlserver cdc的实现原理: 源码使用的是FlinkS,并对其sqlserver-connector进行的改造,其中SqlServer CDC的设计模式为生产者/消费者模型,通过一个LinkedBlockingQueue作...原创 2021-11-17 14:26:18 · 1613 阅读 · 0 评论 -
flink+hive进行数据挖掘出现java.lang.IllegalArgumentException: The minBucketMemorySize is not valid!
项目背景使用flink(1.12.0)+hive(3.1)进行数据分析,使用windows10_x64(8GB内存)+idea进行开发,因为需要本地调试,且数据量是3W*3W左右的两个表,因此直接通过flink-client的MiniCluster在本地直接运行。问题描述将A、B两个表进行join后,按照其中4个字段进行group by并执行sum()和select()操作,这里会出现问题,错误堆栈如下Exception in thread "main" java.lang.Runtime原创 2021-04-24 18:25:51 · 2639 阅读 · 2 评论 -
java通过hdfs client jar编码出现java.io.IOException: No FileSystem for scheme: hdfs问题
HDFS的编码API入口根据hadoop2.10.1版本的API DOC来看,对HDFS的操作一共有两种API入口:通过org.apache.hadoop.fs.FileContext的静态方法创建。 通过org.apache.hadoop.fs.FileSystem的静态方法创建。其中FileContext是通过org.apache.hadoop.fs.AbstractFileSystem抽象类创建org.apache.hadoop.fs.HDFS类作为DFSClient;FileSyst原创 2021-04-13 16:36:45 · 822 阅读 · 0 评论