Spark在大数据分析中的使用方式

最新推荐文章于 2024-07-23 10:30:30 发布

Ayanha

最新推荐文章于 2024-07-23 10:30:30 发布

阅读量651

点赞数

分类专栏： Spark快速大数据分析文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45052608/article/details/119182328

版权

本文介绍了Spark应用程序的工作原理，包括通过驱动器程序与SparkContext连接集群，处理分布式数据集。此外，详细阐述了如何在独立的Python和Scala程序中连接Spark，如设置Master，初始化SparkContext以及关闭Spark应用的方法。

摘要由CSDN通过智能技术生成

一、Spark应用程序的工作原理

spark应用程序通过驱动器程序（spark shell、idea等）来发起在集群上的并行操作，包括定义集群上的分布式数据集(RDD)，并对数据集进行操作。驱动器程序通过对象SparkContext（即sc）连接spark集群，从而访问spark集群上的分布式文件。在驱动器程序上，可以通过sc来创建RDD，并且一次性操作管理多个执行器节点（通过Spark API对多个节点上的分布式数据集传递函数，进行操作）。

二、独立的spark程序

在spark shell中会自动初始化sc，而在Python、scala的独立应用程序中，需要连接spark，然后自定义初始化sc来使用Spark API操作spark集群。

1、Python

spark连接：把应用程序写成Python脚本，通过bin/spark-submit 文件.py来运行程序，spark-submit会自动引入Python程序对spark的依赖
sc初始化：

from pyspark import SparkConf,SparkContext
conf=SparkConf(

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark在大数据分析中的使用方式

一、Spark应用程序的工作原理spark应用程序通过驱动器程序（spark shell、idea等）来发起在集群上的并行操作，包括定义集群上的分布式数据集(RDD)，并对数据集进行操作。驱动器程序通过对象SparkContext（即sc）连接spark集群，从而访问spark集群上的分布式文件。在驱动器程序上，可以通过sc来创建RDD，并且一次性操作管理多个执行器节点（通过Spark API对多个节点上的分布式数据集传递函数，进行操作）。二、独立的spark程序在spark shell中会自动初始化
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。