![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark 2
文章平均质量分 51
sprk
是 你 啊 初 心
这个作者很懒,什么都没留下…
展开
-
Spark大数据处理讲课笔记2.4 IDEA开发词频统计项目
由于Spark项目要求Spark内核版本与Scala库版本(主版本.次版本)要保持一致,否则本地都无法运行项目。Spark3.2.0开始,要求Scala库版本就更新到了2.13,只有Spark3.1.3使用Scala库版本依然是2.12,因此Spark项目选择使用Spark3.1.3。由于没有将依赖包添加到生成的jar包,所以生成的jar包很小,只有5KB。如果将全部依赖包都打进jar包,那么生成的jar包就会有几十兆。,本地运行没有问题,但是打成Jar包提交到集群运行会报错。原创 2023-06-15 18:07:33 · 82 阅读 · 0 评论 -
Spark大数据处理讲课笔记2.2 搭建Spark开发环境
为应用程序运行在Worker节点上的一个进程,由Worker进程启动,负责执行具体的Task,并存储数据在内存或磁盘上。提交Spark作业后,观察Spark集群管理界面,其中“Running Applications”列表表示当前Spark集群正在计算的作业,执行几秒后,刷新界面,在Completed Applications表单下,可以看到当前应用执行完毕,返回控制台查看输出信息,出现了“读取的依然是HDFS上的文件,绝对不是本地文件)。集群进行交互),提交Spark作业,并将作业转化为。原创 2023-06-15 18:09:13 · 226 阅读 · 0 评论