Spark
文章平均质量分 56
启四
这个作者很懒,什么都没留下…
展开
-
Spark如何将DataFrame、DataSet、Row转换为Json字符串?
Spark如何将DataFrame、DataSet、Row转换为Json字符串?最近遇到一个业务需求,需要将DataFrame中的每一行数据转换为Json字符串并存入mysql库。话不多说,直接上代码:package core.testimport org.apache.spark.sql.{DataFrame, Row, SparkSession}import scala.util.parsing.json.JSONObjectobject DFTest { def main(ar原创 2021-10-09 19:05:41 · 3332 阅读 · 1 评论 -
Task not serializable的原因及解决方法
Task not serializable的原因及解决方法原因及解决方法:项目场景:问题描述:报错内容报错代码原因分析:解决方案:原因及解决方法:这是一个比较常见的问题,flink、spark,都有可能遇到类似问题。由于两者都是分布式计算引擎,都不能在算子中传入未经序列化的数据。所以此类问题:原因:基本上都是因为在算子中传入了未经序列化的数据。解决方法:就是找到那个未经序列化的数据,然后在算子前提前定义或者序列化。项目场景:我需要将一个util.HashMap[Integer, DataS原创 2021-05-30 17:07:55 · 4420 阅读 · 0 评论 -
Yarn-cluster及Yarn-client两种提交模式剖析
Yarn-cluster及Yarn-client两种提交模式剖析Yarn-cluster提交模式原理图Yarn-client提交模式原理图两种提交模式优缺点分析切换方式总结Yarn-cluster提交模式原理图Yarn-client提交模式原理图两种提交模式优缺点分析Yarn-client,用于本地测试,因为Driver运行在本地客户端,负责调度application,会与yarn集...原创 2019-04-04 09:19:22 · 584 阅读 · 0 评论 -
spark架构原理图
原创 2019-02-28 00:34:00 · 325 阅读 · 0 评论 -
spark之shuffle性能优化
shuffle调优是spark调优的重中之重,在讲解shuffle调优之前,我们首先明确一个概念,什么是shuffle操作?问题:什么是shuffle?答案:每个Spark作业启动运行的时候,首先Driver进程会将我们编写的Spark作业代码分拆为多个stage,每个stage执行一部分代码片段,并为每个stage创建一批Task,然后将这些Task分配到各个Executor进程中执行。...原创 2019-02-28 01:18:15 · 662 阅读 · 0 评论