RDD对象
数据容器·转换为RDD对象
# 创建SparkConf 类对象
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
# 拿到执行环境入口对象
sc = SparkContext(conf=conf)
# 通过parallelize 方法将python对象加载到spark内,成为RDD对象
rdd1 = sc.parallelize([1,2,3,4,5]) # 列表
rdd2 = sc.parallelize((1,2,3,4,5)) # 元组
rdd3 = sc.parallelize("abcdef") # 字符串
rdd4 = sc.parallelize({1,2,3,4,5}) # 集合
rdd5 = sc.parallelize({"key1": "value1", "key2": "value2"}) # 字典
# 如果要查看rdd对象里的内容,需要用collect() 方法
print(rdd1.collect()) # 输出[1, 2, 3, 4, 5]
print(rdd2.collect()) # 输出[1, 2, 3, 4, 5]
print(rdd3.collect()) # 输出['a', 'b', 'c', 'd', 'e', 'f']
print(rdd4.collect()) # 输出[1, 2, 3, 4, 5]
print(rdd5.collect()) # 输出['key1', 'key2']
sc.stop()
读取文件转RDD对象