http://spark.apache.org/docs/latest/quick-start.html#more-on-dataset-operations
本教程提供了使用Spark的快速入门教程。我们将首先通过Spark的交互式shell(Python或Scala)介绍其API,然后展示如何用Java,Scala和Python编写Spark应用程序。
要学习本教程,请先从Spark网站下载Spark的安装包。由于我们不会使用HDFS,因此您可以下载任何版本的Hadoop的软件包。
请注意,在Spark 2.0之前,Spark的主要编程接口是弹性分布式数据集(RDD)。在Spark 2.0之后,RDD被DataSet取代,DataSet类似于RDD的加强版,在引擎盖下有更丰富的优化。
RDD接口仍然可使用,您可以在RDD编程指南中获得更完整的参考资料。但是,我们强烈建议您切换到使用DataSet,这具有比RDD更好的性能。请参阅SQL编程指南以获取有关数据集的更多信息。
使用Spark Shell进行交互式分析
基础
Spark的shell提供了一个学习API的简单方法,同时也是交互式分析数据的强大工具。它可以使用Scala或Python语言进行开发,可通过在Spark目录运行以下命令启动Spark-Shell:
./bin/spark-shell
Spark的主要抽象是一个名为Dataset的分布式集合。DataSet可以从Hadoop输入格式或者其他Dataset转换得来。
让我们利用Spark源目录中的README文件的文本中创建一个新的DataSet:
scala> val textFile = spark.read.textFile("README.md")
textFile: org.apache.spark.sql.Dataset[String] = [value: string]
我们可以直接调用方法从DataSet里得出某些值,也可以把一个DataSet转换成一个新的Dataset。更多信息,请看DataSet API文档。
scala> textFile.count() // Number of items in this Dataset
res0: Long = 126 // May be different from yours as READ