Spark Python API 学习(1)

初识Spark

    最近刚刚接触Spark,想写一些学习笔记,记录自己每天的学习过程,顺便激励自己的,写的不一定对,只是自己对Spark的一些理解,如有错误,恳请大神批评指正,第一次写博客,不足之处请大家见谅。
    个人对Spark的理解就是一个并行计算框架,代替了Hadoop生态环境中的Mapruduce(基于硬盘),因为Spark是基于内存的,所以运算速度是Mapreduce的100倍,因此个人觉得大数据的时代Spark才是未来。
    Spark:所操作的对象是RDD(可以理解为一种数据结构,从本地文件读取后成为RDD),Spark所有的操作都是对RDD进行转化或者计算。用Python编写Spark平台的程序其实就是用Python的基本语法,然后调用Spark平台的API对RDD进行操作,对RDD的操作包括两种:转换操作和行动操作。Spark是惰性计算,在转换操作的时候cpu实际是不进行运算的,只有到了行动操作cpu才进行运算。将写完的Python程序通过spark-submit命令提交到spark处理。
Python版的spark程序结构主要包含五部分内容:
    1.初始化SparkContext(不用管是什么,就是下边的三行代码,放在程序的开头)

from pyspark import SparkConf,SparkContext
conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)

    2.读取本地文件中的数据创建RDD
    3.对创建的RDD进行转换操作(调用SparkAPI)
    4.对转换完的RDD进行行动操作(调用SparkAPI)
    5.将结果保存到本地文件中
难点:主要是对创建的RDD结构的把握以及第三步和第四步SparkAPI的使用

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark PythonSpark提供的用于Python编程的API。通过将应用写成Python脚本,并使用bin/spark-submit脚本提交运行,可以使用Spark Python API来进行大数据分布式计算。 Spark Python API提供了一系列函数调用,可以帮助开发人员在Python中进行大数据处理和分析。你可以通过学习一些关于Spark Python API函数调用的资料来更好地理解和使用它们。 在Spark中,驱动程序通过一个SparkContext对象来访问Spark,这个对象代表对计算集群的一个连接。 通过使用Spark Python API,你可以方便地在Python中进行大数据处理和分析,提高工作效率。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [Spark 学习-1 (python)](https://blog.csdn.net/m0_55641196/article/details/127449097)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* [Spark python API 函数调用学习](https://download.csdn.net/download/qq_35996035/10597702)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值