[博学谷学习记录]超强总结,用心分享|如何构建RDD

构建RDD对象的方式主要有二种

1- 通过parallelized Collections构建RDD: 并行本地集合方式 (测试)

2- 通过 External Data构建RDD: 加载外部文件的方式 (测试/开发)

  • 通过parallelized Collections构建RDD

from pyspark import SparkContext, SparkConf

import os

# 锁定远端环境, 确保环境统一

os.environ['SPARK_HOME'] = '/export/server/spark'

os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'

os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'

if __name__ == '__main__':

print("如何构建RDD方式一: 并行本地集合")

# 1. 创建SparkContext核心对象

conf = SparkConf().setAppName("create_rdd_01").setMaster("local[2]")

sc = SparkContext(conf=conf)

# 2. 读取数据集: 本地集合

rdd_init = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9, 10],3)

# 3. 打印结果数据

print(rdd_init.collect())

print(rdd_init.getNumPartitions()) # 获取这个RDD有多少个分区

print(rdd_init.glom().collect()) # 获取每个分区中的数据

# 4- 释放资源

sc.stop()

  • 通过 External Data构建RDD

from pyspark import SparkContext, SparkConf

import os

# 锁定远端环境, 确保环境统一

os.environ['SPARK_HOME'] = '/export/server/spark'

os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'

os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'

if __name__ == '__main__':

print("如何构建RDD方式二: 读取外部数据集")

# 1. 创建SparkContext核心对象

conf = SparkConf().setAppName("create_rdd_02").setMaster("local[*]")

sc = SparkContext(conf=conf)

# 2. 读取数据集:

rdd_init = sc.textFile("file:///export/data/workspace/ky06_pyspark/_02_SparkCore/data/")

# 3. 打印结果

print(rdd_init.collect())

print(rdd_init.getNumPartitions())

print(rdd_init.glom().collect())

"""

[

[

'hadoop hive hive hadoop sqoop',

'sqoop kafka hadoop sqoop hive hive',

'hadoop hadoop hive sqoop kafka kafka'

],

[

'kafka hue kafka hbase hue hadoop hadoop hive',

'sqoop sqoop kafka hue hue kafka'

]

]

[

['hadoop hive hive hadoop sqoop', 'sqoop kafka hadoop sqoop hive hive'],

['hadoop hadoop hive sqoop kafka kafka'],

['kafka hue kafka hbase hue hadoop hadoop hive'],

[],

['sqoop sqoop kafka hue hue kafka']]

"""

# 4- 释放资源

sc.stop()

# 博学谷IT 技术支持

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值