spark调优

最新推荐文章于 2023-05-20 09:45:00 发布

9随遇而安

最新推荐文章于 2023-05-20 09:45:00 发布

阅读量577

点赞数

分类专栏： spark 文章标签： spark

本文为博主原创文章，转载请标明原址

本文链接：https://blog.csdn.net/zheng911209/article/details/120961472

版权

spark 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1、小文件

hive表生成，特别容易产生小文件问题，影响访问表性能，总结做法如下：

//spark代码，repartition()=coalesce(true)
//如果是文件合并前后相差较大，executor<=partition推荐coalesce，反之推荐repartition，尤其是合并文件后最终只生成一个文件，推荐使用repartition，可以提高并行度
dataFrame.repartition(分区数)

//如果文件合并前后相差不是特别大，建议使用coalesce
dfReader.coalesce(分区数)

//设置spark.sql.shuffle.partitions参数配合DISTRIBUTE BY来控制小文件数
//spark.sql.shuffle.partitions 值确定最终文件数量，
//DISTRIBUTE BY key 根据key的值来分组每条数据写入到那个文件中

SET spark.sql.shuffle.partitions = 1;
insert into test_tab SELECT * FROM test_tab2 DISTRIBUTE BY key;

待补充

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark调优

待补充
复制链接

扫一扫

专栏目录

9随遇而安 CSDN认证博客专家 CSDN认证企业博客

码龄14年

98: 原创

6万+: 周排名

21万+: 总排名

37万+: 访问

: 等级

2943: 积分

21: 粉丝

177: 获赞

44: 评论

221: 收藏

私信

关注

热门文章

分类专栏

hdfs 2篇
spark 11篇
hadoop 10篇
项目设计 1篇
java 2篇
presto 6篇
运维 3篇
yarn 2篇
前端 4篇
antlr4 1篇
react 2篇
tomcat 2篇
git 1篇
thymeleaf
mybatis 3篇
数据库 1篇
rabbitMQ 4篇
java基础 4篇
github 3篇
idea 2篇
spring 7篇
redis 4篇
httpclient 2篇
其他 4篇
mysql 2篇
hive 6篇
springboot 4篇
spark读书笔记 3篇
吐槽 1篇

最新评论

Trino安装
柠檬味的鱼°: 开启权限验证权需要开启https
大数据-部署、代码、设计
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性。
大数据平台数据脱敏方案
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用标准目录；(2)增加内容的多样性(例如使用标准目录、标题、图片、链接、表格等元素)；(3)增加条理清晰的目录。
Trino安装
zero-->1%: 您好，trino web 界面如何配置使用密码登录？我配置了http-server.authentication.type=PASSWORD的时候服务节点都不能正常启动
安装hadoop-3.2.1(mac伪分布式)
储君sama: mac 用你的下载地址下不了。有别的方案吗？感谢博主~

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。