- 博客(1089)
- 资源 (10)
- 收藏
- 关注
原创 Spark SQL 小文件问题处理
此外,Spark在处理任务时,一个分区分配一个task进行处理,多个分区并行处理,虽然并行处理能够提高处理效率,但不是意味着task数越多越好。如果数据量不大,过多的task运行反而会影响效率。上述只是给出3种常见的解决办法,并且要结合实际用到的技术和场景去具体处理,比如对于HDFS小文件过多,也可以通过生成HAR 文件或者Sequence File来解决。2.容易导致task数过多,如果超过参数spark.driver.maxResultSize的配置(默认1g),会抛出类似如下的异常,影响任务的处理。
2023-04-02 10:01:54 1077
原创 SparkSQL 读写 Mysql
参考: https://spark.apache.org/docs/latest/sql-data-sources-jdbc.html。
2023-04-02 07:51:39 952
原创 Spark-SQL问题-读取json文件
由于源数据只有一种结构,spark-sql字段推断结构,没有bc。取值不同,data中字段结构不同。有三种json文件, 根据字段。将三种数据同步到ods层。
2023-04-01 10:09:16 300
转载 【笔记】杭银消金基于 Apache Doris 1.2 最新版本的风控数据集市升级改造
【Doris Summit 2022】杭银消金基于 Apache Doris 1.2 最新版本的风控数据集市升级改造
2023-03-05 10:05:17 130
原创 Spark面试题:GC导致的 Shuffle文件拉取失败,报错 Shuffle file not found
Shuffle file not found
2022-11-28 08:35:58 520
原创 Flink1.15源码解析--启动JobManager----Dispatcher启动
Flink1.15源码解析--启动JobManager----ResourceManager启动
2022-11-14 23:50:28 427
原创 Flink1.15源码解析---- DispatcherResourceManagerComponent
flink1.15 源码解析 --- DispatcherResourceManagerComponent
2022-11-12 17:06:24 488
转载 FlinkSQL--时态表或版本表(Temporal Tables 或 Versioned Tables)
flinksql-- 流的概念--- 时态表或者版本表
2022-11-02 22:15:11 734
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人