自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

chbxw

努力是会上瘾的，尤其尝到了甜头

原创 Spark SQL 小文件问题处理

此外，Spark在处理任务时，一个分区分配一个task进行处理，多个分区并行处理，虽然并行处理能够提高处理效率，但不是意味着task数越多越好。如果数据量不大，过多的task运行反而会影响效率。上述只是给出3种常见的解决办法，并且要结合实际用到的技术和场景去具体处理，比如对于HDFS小文件过多，也可以通过生成HAR 文件或者Sequence File来解决。2.容易导致task数过多，如果超过参数spark.driver.maxResultSize的配置（默认1g），会抛出类似如下的异常，影响任务的处理。

2023-04-02 10:01:54 1077

原创 SparkSQL 读写 Mysql

参考： https://spark.apache.org/docs/latest/sql-data-sources-jdbc.html。

2023-04-02 07:51:39 952

原创 Spark-SQL问题-读取json文件

由于源数据只有一种结构，spark-sql字段推断结构，没有bc。取值不同，data中字段结构不同。有三种json文件, 根据字段。将三种数据同步到ods层。

2023-04-01 10:09:16 300

原创 [Maven] java和scala混合打包

【代码】[Maven] java和scala混合打包。

2023-04-01 09:06:21 342

原创【数据仓库】指标体系&汇总模型设计

指标体系汇总模型设计

2023-03-09 13:57:46 1054

原创 2023面试总结集锦

面试

2023-03-09 08:46:54 93

原创大数据面试集锦

大数据面试集锦

2023-03-08 11:48:16 858

转载【笔记】杭银消金基于 Apache Doris 1.2 最新版本的风控数据集市升级改造

【Doris Summit 2022】杭银消金基于 Apache Doris 1.2 最新版本的风控数据集市升级改造

2023-03-05 10:05:17 130

原创面试题：20230217

面试：数据仓库

2023-02-17 10:35:00 130

原创 Doris--简单使用

doris 简单使用

2023-02-14 12:43:31 566

原创 20221222蔚来面试

面试

2022-12-22 16:20:59 450 3

原创面试题: 你在工作/学习过程中遇到过什么深刻问题吗？怎么克服？

面试：遇到什么深刻问题，怎么解决

2022-12-12 19:21:51 801 2

原创面试题: LEAD 和 LAG 求每个用户的页面停留时长

lead 页面提留时长

2022-12-06 11:27:37 726

原创面试题: Hive-SQL查询连续活跃登录用户思路详解

sql: 查询连续问题

2022-12-06 10:12:23 737

原创 Spark面试题：GC导致的 Shuffle文件拉取失败，报错 Shuffle file not found

Shuffle file not found

2022-11-28 08:35:58 520

原创 spark 参数调优

spark 参数调优

2022-11-24 17:15:45 594

原创面试题：Flink反压机制及与Spark Streaming的区别

面试题： flink与 sparkstreamin的背压机制区别对比

2022-11-21 13:44:54 1085

原创 Flink中的Checkpoint和Spark中的Checkpoint区别

flink 与 spark 的 checkpoint 区别

2022-11-20 15:45:36 731

原创大数据面试题系列一

spark 面试题

2022-11-20 10:03:04 661 1

原创 Flink1.15源码解析--启动TaskManager

flink1.15源码解析--启动taskManager

2022-11-17 21:40:12 1195

原创 Flink1.15源码解析--选举

Flink1.15源码解析--选举

2022-11-15 21:59:09 874

原创 Flink1.15源码解析--启动JobManager----Dispatcher启动

Flink1.15源码解析--启动JobManager----ResourceManager启动

2022-11-14 23:50:28 427

原创 Flink1.15源码解析--启动JobManager----ResourceManager启动

Flink1.15源码解析

2022-11-14 23:33:45 359

原创 Flink1.15源码解析--启动JobManager----WebMonitorEndpoint启动

Flink1.15源码解析

2022-11-13 11:38:29 662

原创 Flink1.15源码解析--安全模块及安全上下文

Flink1.15源码解析安全模块及上下文

2022-11-12 19:16:38 811

原创 Flink1.15源码解析---- ClusterEntrypoint

Flink-1.15源码解析---- ClusterEntrypoint

2022-11-12 17:38:42 845

原创 Flink1.15源码解析---- DispatcherResourceManagerComponent

flink1.15 源码解析 --- DispatcherResourceManagerComponent

2022-11-12 17:06:24 488

原创 Flink1.15源码解析--启动JobManager

Flink1.15源码解析--启动JobManager

2022-11-12 16:29:16 390

原创 Flink1.15源码解析--启动脚本----start-cluster.sh

flink-1.15源码解析

2022-11-12 10:23:40 1078

原创 Flink1.15源码解析--任务提交流程----flink run

flink-1.15源码解析-- 任务提交

2022-11-11 18:14:06 1054

原创 Flink1.15源码解析

flink-1.15源码解析

2022-11-10 21:18:16 473

原创 FlinkSQL 整合 Hive-- flink-1.13.6

flinkSQL 整合 hive

2022-11-07 23:15:47 2899 2

原创 Flink1.13新特性及改动

flink1.13

2022-11-07 12:54:34 440

原创 FlinkSQL-- sql-client及源码解析 -- flink-1.13.6

flink sql client及源码解析

2022-11-05 12:09:32 1672

转载 FlinkSQL--时态表或版本表（Temporal Tables 或 Versioned Tables）

flinksql-- 流的概念--- 时态表或者版本表

2022-11-02 22:15:11 734

原创 FlinkSQL -- joins----flink-1.13.6

flinksql -- join

2022-10-29 16:12:39 863 2

原创 Flink SQL--- Over Aggregation

flinksql-- over聚合

2022-10-29 15:07:25 1003

原创 Flink SQL ---Top-N ，Window Top-N

flinksql -- topN, window topN

2022-10-29 11:40:09 1143

原创 Flink SQL --- 窗口聚合

flinksql-- 窗口聚合

2022-10-29 11:11:56 1090

原创 Flink SQL--分组聚合

flink sql -- 分区聚合

2022-10-28 15:38:21 2054

企业级360用户画像的配置数据 tags.zip

企业级360用户画像的配置数据

2021-06-25

mdnice_1_0_7.crx

将CSDN中文章同步到微信公众号

2021-06-15

360用户画像标签及源数据

360用户画像标签及源数据

2021-05-28

企业级360用户画像.pdf

360用户画像

2021-05-26

Hive实战之视频网站的测试数据

Hive实战之视频网站测试数据 https://chbxw.blog.csdn.net/article/details/107738550

2020-08-02

第4讲 .pdf

概率论频率与概率

2019-08-25

搭建本地yum源

搭建本地yum源

2019-02-01

hadoop2.5.2学习13-MR之新浪微博

hadoop2.5.2学习13-MR之新浪微博TF-IDF算法简介

2017-03-19

天猫推荐测试数据

hadoop2.5.2学习14--MR之协同过滤天猫推荐算法实现01

2017-03-04

java程序员必知的8大排序

8大排序

2016-07-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除