Spark2.2.1官方文档翻译 快速开始(Quick Start)

http://spark.apache.org/docs/latest/quick-start.html#more-on-dataset-operations使用Spark Shell进行交互式分析基础更多DataSet 操作缓存Spark应用程序更多本教程提供了使用Spark的快速入门教程。我们将首先通过Spark的交互式shell(Python或Scala)介
摘要由CSDN通过智能技术生成

http://spark.apache.org/docs/latest/quick-start.html#more-on-dataset-operations

本教程提供了使用Spark的快速入门教程。我们将首先通过Spark的交互式shell(Python或Scala)介绍其API,然后展示如何用Java,Scala和Python编写Spark应用程序。

要学习本教程,请先从Spark网站下载Spark的安装包。由于我们不会使用HDFS,因此您可以下载任何版本的Hadoop的软件包。

请注意,在Spark 2.0之前,Spark的主要编程接口是弹性分布式数据集(RDD)。在Spark 2.0之后,RDD被DataSet取代,DataSet类似于RDD的加强版,在引擎盖下有更丰富的优化。

RDD接口仍然可使用,您可以在RDD编程指南中获得更完整的参考资料。但是,我们强烈建议您切换到使用DataSet,这具有比RDD更好的性能。请参阅SQL编程指南以获取有关数据集的更多信息。

使用Spark Shell进行交互式分析

基础

Spark的shell提供了一个学习API的简单方法,同时也是交互式分析数据的强大工具。它可以使用Scala或Python语言进行开发,可通过在Spark目录运行以下命令启动Spark-Shell:

./bin/spark-shell

Spark的主要抽象是一个名为Dataset的分布式集合。DataSet可以从Hadoop输入格式或者其他Dataset转换得来。
让我们利用Spark源目录中的README文件的文本中创建一个新的DataSet:

scala> val textFile = spark.read.textFile("README.md")
textFile: org.apache.spark.sql.Dataset[String] = [value: string]

我们可以直接调用方法从DataSet里得出某些值,也可以把一个DataSet转换成一个新的Dataset。更多信息,请看DataSet API文档

scala> textFile.count() // Number of items in this Dataset
res0: Long = 126 // May be different from yours as READ
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值