spark
zhangvalue
在奋进的路上,大家都是独行者!
展开
-
Spark on Hive和Hive on Spark的区别
Spark on hive和hive on spark的区别原创 2022-07-19 17:10:56 · 2194 阅读 · 1 评论 -
Spark统计每天新增用户
给出的数据使用Spark统计每天的新增的用户。原创 2022-07-18 19:00:56 · 1705 阅读 · 0 评论 -
Spark与Flink 架构选择
Spark和Flink都支持批处理和流处理,接下来让我们对这两种流行的数据处理框架在各方面进行对比。原创 2022-07-03 11:09:03 · 449 阅读 · 0 评论 -
Spark中collect方法报错java.lang.OutOfMemoryError:Java heap space
具体报错信息:在执行val arr = data.collect()的时候报错java.lang.OutOfMemoryError:Java heap space1.collect的作用Spark内有collect方法,是Action操作里边的一个算子,这个方法可以将RDD类型的数据转化为数组,同时会从远程集群是拉取数据到driver端。2.已知的弊端首先,collect是Action里边的,根据RDD的惰性机制,真正的计算发生在RDD的Action操作。那么,一次collect就会导致一次S原创 2022-05-13 10:49:19 · 1235 阅读 · 0 评论 -
(Spark3.2.0)Spark SQL 初探: 使用大数据分析2000万KF数据
(Spark3..2.0)Spark SQL按照星座对2000W数据进行分组统计, 看看哪个星座的人最喜欢KF原创 2022-04-23 00:15:08 · 2068 阅读 · 0 评论 -
error: value createSchemaRDD is not a member of org.apache.spark.sql.SQLContext
<console>:23: error: value createSchemaRDD is not a member of org.apache.spark.sql.SQLContext在spark1.3以后spark SQL取消了createSchemaRDD,改为了implicits。import sqlContext.implicits._原创 2022-04-22 21:18:26 · 2506 阅读 · 0 评论 -
Mac中使用brew更新Spark至3.2.0
Mac中使用brew更新Spark至3.2.0当前Mac中安装的spark版本比较旧为2.3.0使用brew install spark出现问题:Error: Permission denied @ apply2files - /usr/local/lib/docker/cli-plugins解决方法:sudo chown -R $(whoami) $(brew --prefix)/*下载apache-sparkbrew install apache-sparkhttps:原创 2022-04-22 21:05:59 · 2450 阅读 · 0 评论 -
Docker制作Spark3.1.2镜像
Docker制作Spark3.1.2镜像一、启动Docker容器二、下载Spark3.1.2并进去目录三、使用Docker build命令制作镜像docker build -t registry/spark:3.1.2 -f kubernetes/dockerfiles/spark/Dockerfile .四、docker images查看镜像五、导出镜像docker save -o spark3.1.2.tar registry/spark:3.1.2六、下载地址Docker原创 2022-01-29 14:32:28 · 2745 阅读 · 0 评论 -
Spark3.1.2 on k8s配置日志存储路径:spark-defaults.conf
Spark3.1.2 on k8s配置日志存储路径:spark-defaults.conf使用的Hadoop版本是2.7.3 HDFS端口号9000192.168.x.x是Hadoop的namenode节点IP地址18080是默认的历史日志的端口号spark.yarn.historyServer.address=192.168.x.x:18080spark.history.ui.port=18080spark.eventLog.enabled truespark.eventLo原创 2022-01-26 09:57:25 · 2665 阅读 · 1 评论 -
Spark运行WordCount(案例二)
Spark运行WordCount(案例二)具体细节参考Spark运行WordCount(案例一):https://zhangvalue.blog.csdn.net/article/details/122501292https://zhangvalue.blog.csdn.net/article/details/122501292和前期准备工作:Mac安装Spark并运行SparkPi_zhangvalue的博客-CSDN博客Mac安装Spark2.4.7https://archive.apach原创 2022-01-14 20:23:19 · 1119 阅读 · 0 评论 -
Spark运行WordCount(案例一)
使用Spark运行WordCount将/Users/zhangsf/data/poet.txt上传到/zhangvalue/input目录hdfs dfs -put /Users/zhangsf/data/poet.txt/zhangvalue/input查看hdfs dfs -ls /zhangvalue/inputhttp://localhost:9870/explorer.html#/zhangvalue/input查看上传的poet文件...原创 2022-01-14 20:08:44 · 919 阅读 · 0 评论 -
Mac安装Spark并运行SparkPi
Mac安装Spark2.4.7https://archive.apache.org/dist/spark/spark-2.4.7/spark-2.4.7-bin-hadoop2.7.tgz解压tgz文件tar xvf spark-2.4.7-bin-hadoop2.7.tgz先创建scala项目并进行编译打成jar包然后就打好成了本地的jar包打包一个jar包通过sparksubmit提交./bin...原创 2022-01-14 19:55:58 · 760 阅读 · 0 评论