pyspark初步接触

最新推荐文章于 2022-07-15 15:41:13 发布

python_cat_d

最新推荐文章于 2022-07-15 15:41:13 发布

阅读量104

点赞数 1

分类专栏： pyspark

pyspark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Apache Spark

Apache Spark是Apache Software Foundation开发的用于实时处理的开源集群计算框架。 Spark提供了一个接口，用于编程具有隐式数据并行和容错功能的集群。
下面是Apache Spark的一些特性，它比其它的大数据框架的优势在于：
1、速度：比传统的大型数据处理框架快100倍。

2、强大的缓存：简单的编程层提供了强大的缓存和磁盘持久性功能。

3、部署：可以通过Mesos，通过Yarn的Hadoop或Spark自己的集群管理器进行部署。

4、实时：由于内存中的计算，实时计算和低延迟。

5、多语言：这是该框架最重要的特性之一，因为它可以在Scala，Java，Python和R语言中编程。

虽然Spark是在Scala中设计的，但它的速度比Python快10倍，但只有当使用的内核数量少时，Scala才会更快。由于现在大多数分析和处理都需要大量内核，因此Scala的性能优势并不大。

对于程序员来说，由于其语法和标准库，Python相对来说更容易学习。而且，它是一种动态类型语言，这意味着RDD可以保存多种类型的对象。

尽管Scala拥有SparkMLlib，但它没有足够的库和工具来实现机器学习和NLP目的。此外，Scala缺乏数据可视化。

使用Python设置Spark（PySpark）

我们应该如何下载Spark并安装它，当你已经解压缩了spark文件，安装它并将其添加到.bashrc文件的路径中，输入：

source .bashrc
export SPARK_HOME = /usr/lib/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/usr/lib/hadoop/spark-2.1.0-bin-hadoop2.7/bin
要打开PySpark shell，输入命令：./bin/pyspark

Apache Spark由于它具有令人惊叹的功能，如内存处理，polyglot和快速处理等，被许多公司用于各种行业：

PySpark SparkContext与数据流

用Python来连接Spark，使用RD4s可以通过库Py4j来实现。 PySpark Shell将Python API链接到Spark Core并初始化Spark Context。 Spark上下文是任何Spark应用程序的核心。

1、Spark Context设置内部服务并建立到Spark执行环境的连接。

2、驱动程序中的Spark Context对象协调所有分布式进程并允许资源分配。

3、集群管理器提供执行程序，它们是具有逻辑的JVM进程。

4、Spark Context对象将应用程序发送给执行者。

5、Spark Context在每个执行器中执行任务。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pyspark初步接触

Apache SparkApache Spark是Apache Software Foundation开发的用于实时处理的开源集群计算框架。 Spark提供了一个接口，用于编程具有隐式数据并行和容错功能的集群。下面是Apache Spark的一些特性，它比其它的大数据框架的优势在于：1、速度：比传统的大型数据处理框架快100倍。2、强大的缓存：简单的编程层提供了强大的缓存和磁盘持久性功能。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。