PySpark中的RDD创建

PySpark中的RDD创建

【课程性质:PySpark数据处理】

1. 实验目标

  • 学习使用PySpark创建RDD
  • 了解PySpark中的数据存储读取模式

2. 本次实验主要使用的 P y t h o n Python Python

名称版本简介
r e q u e s t s requests requests 2.20.0 2.20.0 2.20.0线性代数
P a n d a s Pandas Pandas 0.25.0 0.25.0 0.25.0数据分析
P y S p a r k PySpark PySpark 2.4.3 2.4.3 2.4.3大数据处理
M a t p l o t l i b Matplotlib Matplotlib 3.0.1 3.0.1 3.0.1数据可视化

3. 适用的对象

  • 本课程假设您已经学习了 P y t h o n Python Python 基础,具备数据可视化基础
  • 学习对象:本科学生、研究生、人工智能、算法相关研究者、开发者
  • 大数据分析与人工智能

4. 研究流程图

image-20210610145017053

5. 实验步骤

步骤1 安装并引入必要的库

# 安装第三方库
!pip install pyspark==2.4.5
# 获取数据集
import zipfile
with zipfile.ZipFile('/resources/jupyter/pyspark/pyspark_dataset_kdd.zip') as z:
    z.extractall()

在本实验中,我们将介绍两种不同的方法来将数据导入基本的Spark数据结构,即Resilient Distributed DatasetRDD**。RDD是元素的分布式集合。Spark中的所有工作都表示为创建新的RDDs,转换现有的RDDs或调用RDDs上的操作来计算结果。Spark自动将RDDs中包含的数据分布到集群中,并并行化对其执行的操作。

获取数据文件

1999年KDD杯比赛数据集的详细描述KDDCUP1999

在本实验中,我们将使用为1999年KDD杯提供的缩减数据集(10%),其中包含近50万个网络交互。该文件作为Gzip文件提供,我们将在下载到本地。

步骤2 从文件创建RDD

创建RDD最常见的方法是从文件中加载它。注意,Spark的“textFile”可以直接处理压缩文件。

data_file = "./kddcup.data_10_percent.gz"
raw_data = sc.textFile(data_file)

现在我们将数据文件加载到 raw_data RDD中。

在不涉及 Spark transformationactions 的情况下,我们可以做的最基本的检查RDD内容是否正确的事情是count()从文件加载到RDD中的数据行数。

raw_data.count()
image-20210610145234613

我们还可以检查数据中的前几个条目。

raw_data.take(5)
image-20210610145323289

在接下来的实验中,我们将使用这些原始数据来了解不同的Spark转换和操作。****

步骤3 使用 parallelize 创建RDD

创建RDD的另一种方法是并行化已经存在的列表。

a = range(100)
data = sc.parallelize(a)

和前面一样,我们可以count()RDD中的元素数量。

data.count()

image-20210610145510708

和上面一样,我们可以访问RDD上的前几个元素。

data.take(5)

image-20210610145537127

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shenhao_sufe

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值