spark
文章平均质量分 66
1
吃再多糖也不长胖
大数据毕业的渣渣
展开
-
异常java.io.NotSerializableException
异常java.io.NotSerializableException原创 2022-10-25 01:17:01 · 6818 阅读 · 0 评论 -
Mkdirs failed to create file:/movie_data/links/_temporary/0/_temporary/attempt_20211205120601_0003_
上一次的集群没有做镜像备份,然后出问题了,重建集群的时候跑job出现这个问题,spark job无法创建hdfs的目录。试过给总目录赋权限发现还是不行后来觉得应该是spark创建hdfs创建文件跟查询文件用的应该不是一个配置啥的,就把hadoop的配置文件hdfs-site.xml 和core-site.xml复制到了spark的conf目录下,结果就可以了问题:java.io.IOException: Mkdirs failed to create file:/movie_data/links/原创 2021-12-05 12:18:37 · 1904 阅读 · 0 评论 -
Spark综合性调优
Spark综合性调优1.分配资源调优1.1可以分配的资源:1.2 怎么分配1.3 为什么会提升性能2.调节并行度2.1 并行度概念和原因2.2设置并行度3.重构RDD架构以及RDD持久化3.1RDD架构重构与优化3.2公共RDD一定要实现持久化3.3持久化,是可以进行序列化的3.4在内存充足的时候,为了数据的可靠性,可以使用双副本机制持久化。4.使用Kryo序列化4.1.概念4.2Kryo序列化机制启用以后生效的几个地方1.分配资源调优1.1可以分配的资源:1.executor数量 2.每个execu原创 2021-11-29 17:02:04 · 1025 阅读 · 0 评论 -
Spark OOM调优分析
Spark OOM调优分析1.spark oom 调优1.1 原因分析1.2 driver内存不足原因与解决:1、读取数据太大。2.数据回传3.spark框架本身的消耗1.1 executor 内存不足2.算子优化3.参数优化4.Spark shuffle优化1.spark oom 调优1.1 原因分析内存溢出oom原因两点:1.Driver内存不足2.executor内存不足1.2 driver内存不足原因与解决:1、读取数据太大。读取数据太大,在driver端生成了大对象,比如创建了一个原创 2021-11-22 15:06:06 · 2537 阅读 · 0 评论 -
Spark基础
Spark基础一.spark介绍1.1 spark特点1.2 spark跟mapreduce优缺点对比1.3 3.0版本新特性1.41.5 spark流程二、RDD的使用1.1 什么是RDD1.2 rdd的特点1.3 rdd分类1.4 创建rdd方式1.5 常用transformation算子1.6 常见action 算子1.7 缓存算子 cache、persis1.8 checkpoint算子 下载中间结果到hdfs1.9 rdd分析1.10 累加器(只写不读)、广播变量(只读不写)1.11 coal原创 2021-11-19 10:53:32 · 1075 阅读 · 0 评论 -
记录spark部署ha模式遇到的一些坑
参考搭建文章我是看这位大神文章搭建的,但是有差错,我基于我配置或多或少增加了或者修改了一些东西,文章下面内容记录一下。大神搭建文章贴上来https://github.com/heibaiying/BigData-Notes/blob/master/notes/installation/Spark集群环境搭建.md修改8080端口我们知道8080端口是很多web应用的默认端口,如果一台机器上...原创 2020-03-19 00:23:04 · 287 阅读 · 0 评论 -
Exception: Python in worker has different version 2.7 than that in driver 3.5, PySpark cannot run wi
linux的python版本跟你的window版本不同(可能是因为你Linux安装了相同版本可是你没配置)有两种解决方法1.import osos.environ["PYSPARK_PYTHON"] = 'python3'2.修改linux的.bash_profile,添加export PYSPARK_PYTHON=python3...原创 2020-03-19 00:41:53 · 287 阅读 · 0 评论 -
关于运行spark streaming netcat输入无结果的问题(streaming 线程要求)
关于运行spark streaming netcat输入无结果的问题问题描述问题简单来讲就是,在客户端启动wordcounts样例后,在netcat服务端输入东西,客户端没有任何显示,除了途中的两个正常警告。看了一下spark ui网页,上面的Running Applications 是空的,就算说没有程序在跑的我spark。解决办法查找样例的源代码,但是没找到,在虚拟机中找到了分别不同版本的样例代码看到这里基本上就知道是啥问题了,没有设置master,然后默认是以local 或者local[原创 2020-05-28 20:19:05 · 442 阅读 · 0 评论