spark1.6学习（二）——独立的python程序运行pyspark

最新推荐文章于 2023-01-12 16:35:28 发布

archer.wu

最新推荐文章于 2023-01-12 16:35:28 发布

阅读量2.4k

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/wild46cat/article/details/84576011

版权

spark 专栏收录该内容

19 篇文章 4 订阅

订阅专栏

本篇文章主要介绍如何使用独立的python程序运行pyspark。

一般，我们在测试的时候可以使用pyspark进行简单的交互，但是在线上具体使用的程序，我们需要使用一个完整的pyspark程序的。

主要参考：http://spark.apache.org/docs/1.6.0/quick-start.html

好，下面上货。

首先是完整的程序，从hdfs中读取文件并且缓存下来，同时算出包含a和包含b 的行数，并且打印出来。

from pyspark import SparkContext, SparkConf


def main():
    logFile = "/user/root/data.txt"
    master = 'yarn-client'
    appName = 'Simple App spark study01'
    conf = SparkConf().setAppName(appName).setMaster(master)
    sc = SparkContext(conf=conf)
    logData = sc.textFile(logFile).cache()
    numAs = logData.filter(lambda s: 'a' in s).count()
    numBs = logData.filter(lambda s: 'b' in s).count()
    print("Lines with a: %i, lines with b: %i" % (numAs, numBs))


if __name__ == '__main__':
    main()

运行命令：

spark-submit --master yarn-client sparkstudy01.py

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

archer.wu

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark MLlib与深度学习：构建新型计算机视觉应用

程序员光剑

07-14

1957

作者：禅与计算机程序设计艺术随着大数据、云计算和移动互联网的普及，人工智能（AI）正在成为继“机器学习”之后又一个重要方向。作为一个专门研究人类智能的科学领域，人工智能主要包括机器学习、深度学习、模式识别等多个分支领域。而近年来随着数据处理和存储技术的不断发展，Apache Spark™项目也逐渐被越来越多地用于实现机器学习、深度学习等

PySpark库的安装和一些方法

最新发布

m0_68794863的博客

09-07

356

PySpark支持通过SparkContext对象的parallelize成员方法，将list，tuple，set，dict，str。功能：将RDD各个分区内的数据，统一收集到Driver中，形成一个List对象。函数对RDD数据逐个处理，得到True的保留至返回值的RDD中。RDD，自动按照key分组，然后根据你提供的聚合逻辑，完成。返回是True的数据被保留，False的数据被丢弃。1、字符串会被拆分出1个个的字符，存入RDD对象。功能：对RDD数据进行排序，基于你指定的排序依据。

参与评论您还未登录，请先登录后发表或查看评论

Pyspark学习笔记（二）--- spark部署及spark-submit命令简介

朝花&夕拾

03-17

2519

Pyspark学习笔记（二）--- spark-submit命令非交互式应用程序，通过spark-submit命令提交任务,官方讲解如下链接所示 http://spark.apache.org/docs/latest/submitting-applications.html#submitting-applications, spark-submit脚本位于spark安装目录下的bin文件夹内，该命令利用可重用的模块形式编写脚本，以编程方式提交任务到Spark上去，并可以支持.......

Spark 的 Shell操作，核心概念，构建独立应用

weixin_33971130的博客

06-17

147

1：Spark中的Python和Scala的shell 2：Spark核心概念简介 3：独立应用 4：Spark数据集一：Spark中的Python 和Scala 的shell 1：shell设置显示日志进入Spark的安装目录，启动spark的集群，输入bin/pyspark，但此时会伴有大量的日志信息，在这里想要...

spark指定python版本_Mac 配置Spark环境scala+python版本（Spark1.6.0）

weixin_39825722的博客

11-26

120

1. 从官网下载Spark安装包，解压到自己的安装目录下（默认已经安装好JDK，JDK安装可自行查找）； spark官网：http://spark.apache.org/downloads.html2. 进入系统命令行界面，进入安装目录下，如"／安装目录／spark-1.6.0-bin-hadoop-2.6.0 "，输入命令"./bin/pyspark"验证pyspark能否运行，再输入命令“./...

Spark独立应用的创建

浪灬迹-红尘少年的博客

03-06

280

下载IntalliJIDEA 创建Scala工程（略）新建工程-创建Maven工程；导入scala包加载spark-core_2.11依赖库 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</art...

Spark学习—— (4) 基本使用（Python）

机器学习，大数据

04-26

1229

Spark支持Java、Python、Scala、R语法，可以通过spark-shell（Scala）或pyspark（Python）进行交互式的操作，也可以用spark-submit提交用Java、Python、Scala编写的应用。为了学习Spark的使用，本文不涉及原理，仅仅介绍Spark中Python的基本使用，为之后学习Spark的使用打下基础。本文使用部分全部来自官方参考文档Qui...

大数据技术——RDD编程初级实践

weixin_44428549的博客

06-19

1893

RDD编程初级实践1、需求描述2、环境介绍3、数据来源描述4、数据上传及上传结果查看5、数据处理过程描述1.pyspark交互式编程2.编写独立应用程序实现数据去重3.编写独立应用程序实现求平均值问题6、经验总结 1、需求描述在当今社会，随着大数据的快速发展情况下，大数据已经完全融入到我们的生活中。为了适应各种信息化技术的快速发展，我作为计算机专业的学生，学习大数据这项技术是必不可少的。这次的实验是RDD编程初级实践，我们需要熟悉Spark的RDD基本操作和键值对操作同时还要熟悉使用RDD编

大数据技术之_19_Spark学习_07_Spark 性能调优 + 数据倾斜调优 + 运行资源调优 + 程序开发调优 + Shuffle 调优 + GC 调优 + Spark 企业应用案例

黑泽君

05-04

2046

大数据技术之_19_Spark学习_07_Spark 性能调优 + 数据倾斜调优 + 运行资源调优 + 程序开发调优 + Shuffle 调优 + GC 调优 + Spark 企业应用案例

spark调用python_PySpark-使用Python在Spark上编程

weixin_39931923的博客

11-25

228

Python Programming GuideThe Spark Python API (PySpark) exposes the Spark programming model to Python. To learn the basics of Spark, we recommend reading through theScala programming guide first; it sh...

spark运行python代码

weixin_33695450的博客

01-04

1386

spark运行python代码一般使用命令spark-submit test.py这样的形式来运行如果代码中设置了参数的话，还需要在命令行中传入参数其中spark默认使用的hdfs中的文档运行如果要运行本地文件的话，可以加上file:// 例如： spark-submit wordcount.py file:///home/tst ...

spark简单案例、独立应用搭建——idea中基于maven构建spark应用程序

Geek白先生的博客

09-08

547

spark简单案例独立应用搭建–基于Maven构建Spark应用程序 1.创建Maveng工程 2.配置pom文件  <dependency> <groupId>org.apache.spark</group...

spark python教程很少啊_python pyspark入门篇

weixin_39983350的博客

12-06

116

一.环境介绍：1.安装jdk 7以上2.python 2.7.113.IDE pycharm4.package:spark-1.6.0-bin-hadoop2.6.tar.gz二.Setup1.解压spark-1.6.0-bin-hadoop2.6.tar.gz 到目录D:\spark-1.6.0-bin-hadoop2.62.配置环境变量Path，添加D:\spark-1.6.0-bin-ha...

pyspark入门 | spark-submit 提交pyspark任务

u011250186的博客

12-10

4468

https://github.com/hxjcarrie/pyspark_study 以LogisticRegression为例输入数据样例（第一列为label，后面为feature） lrDemo.py（基于RDD的mllib） #!coding=utf8 ''' author: huangxiaojuan ''' import sys reload(sys) sys.setdefaultencoding('utf8') from pyspark.sql import SparkS...

【PySpark学习笔记三】spark-submit命令详解

roguesir的博客

10-23

8482

spark-submit命令利用可重用的模块形式编写脚本，并且以编程方式提交作业到Spark。 spark-submit命令 spark-submit命令提供一个统一的API把应用程序部署到各种Spark支持的集群管理器上，从而免除了单独配置每个应用程序。命令行参数下面逐个介绍这些参数： --master：用于设置主结点URL的参数。 local：用于执行本地机器的代码。Spark运行一个...

PySpark任务提交spark-submit参数设置一文详解

master_hunter的博客

01-12

5458

之前我们已经进行了pyspark环境的搭建以及经过jupyter notebook进行过开发以及实现了一系列的函数功能.但是一般我们跑spark都是在集群上面跑，只有测试一般在本地上测试，而且每个公司配置的spark集群的端口和设置的参数都有很大出入，故每种情况都有可能发生。所以一般任务提交的参数最好都需要能够清楚的明白对应功能。很多spark任务都会吃大量的内存以及队列资源，合理的安排spark资源十分重要，这些都需要我们在spark-submit指令上面配置。

pyspark 集成指定python版本

sinat_23257429的博客

12-22

1756

pyspark 指定python版本

Python3：Python+spark编程实战总结