Spark2.2.1官方文档翻译快速开始（Quick Start）

最新推荐文章于 2024-07-23 17:55:22 发布

置顶

左VJ

最新推荐文章于 2024-07-23 17:55:22 发布

阅读量1.9k

点赞数 1

分类专栏： spark翻译 spark 文章标签： spark shell scala 编程文档中文

http://spark.apache.org/docs/latest/quick-start.html#more-on-dataset-operations使用Spark Shell进行交互式分析基础更多DataSet 操作缓存Spark应用程序更多本教程提供了使用Spark的快速入门教程。我们将首先通过Spark的交互式shell（Python或Scala）介

摘要由CSDN通过智能技术生成

http://spark.apache.org/docs/latest/quick-start.html#more-on-dataset-operations

使用Spark Shell进行交互式分析
- 基础
更多DataSet 操作
缓存
Spark应用程序
更多

本教程提供了使用Spark的快速入门教程。我们将首先通过Spark的交互式shell（Python或Scala）介绍其API，然后展示如何用Java，Scala和Python编写Spark应用程序。

要学习本教程，请先从Spark网站下载Spark的安装包。由于我们不会使用HDFS，因此您可以下载任何版本的Hadoop的软件包。

请注意，在Spark 2.0之前，Spark的主要编程接口是弹性分布式数据集（RDD）。在Spark 2.0之后，RDD被DataSet取代，DataSet类似于RDD的加强版，在引擎盖下有更丰富的优化。

RDD接口仍然可使用，您可以在RDD编程指南中获得更完整的参考资料。但是，我们强烈建议您切换到使用DataSet，这具有比RDD更好的性能。请参阅SQL编程指南以获取有关数据集的更多信息。

使用Spark Shell进行交互式分析

基础

Spark的shell提供了一个学习API的简单方法，同时也是交互式分析数据的强大工具。它可以使用Scala或Python语言进行开发，可通过在Spark目录运行以下命令启动Spark-Shell：

./bin/spark-shell

Spark的主要抽象是一个名为Dataset的分布式集合。DataSet可以从Hadoop输入格式或者其他Dataset转换得来。
让我们利用Spark源目录中的README文件的文本中创建一个新的DataSet：

scala> val textFile = spark.read.textFile("README.md")
textFile: org.apache.spark.sql.Dataset[String] = [value: string]

我们可以直接调用方法从DataSet里得出某些值，也可以把一个DataSet转换成一个新的Dataset。更多信息，请看DataSet API文档。

scala> textFile.count() // Number of items in this Dataset
res0: Long = 126 // May be different from yours as READ

最低0.47元/天解锁文章

左VJ

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark2.2.1官方文档翻译快速开始（Quick Start）

http://spark.apache.org/docs/latest/quick-start.html#more-on-dataset-operations使用Spark Shell进行交互式分析基础更多DataSet 操作缓存Spark应用程序更多本教程提供了使用Spark的快速入门教程。我们将首先通过Spark的交互式shell（Python或Scala）介
复制链接

扫一扫