Spark在大数据分析中的使用方式

本文介绍了Spark应用程序的工作原理,包括通过驱动器程序与SparkContext连接集群,处理分布式数据集。此外,详细阐述了如何在独立的Python和Scala程序中连接Spark,如设置Master,初始化SparkContext以及关闭Spark应用的方法。
摘要由CSDN通过智能技术生成

一、Spark应用程序的工作原理

spark应用程序通过驱动器程序(spark shell、idea等)来发起在集群上的并行操作,包括定义集群上的分布式数据集(RDD),并对数据集进行操作。驱动器程序通过对象SparkContext(即sc)连接spark集群,从而访问spark集群上的分布式文件。在驱动器程序上,可以通过sc来创建RDD,并且一次性操作管理多个执行器节点(通过Spark API对多个节点上的分布式数据集传递函数,进行操作)。

二、独立的spark程序

在spark shell中会自动初始化sc,而在Python、scala的独立应用程序中,需要连接spark,然后自定义初始化sc来使用Spark API操作spark集群。

1、Python
  • spark连接:把应用程序写成Python脚本,通过bin/spark-submit 文件.py来运行程序,spark-submit会自动引入Python程序对spark的依赖
  • sc初始化:
from pyspark import SparkConf,SparkContext
conf=SparkConf(
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值