Spark学习（2）： RDD

最新推荐文章于 2022-10-26 11:39:37 发布

Catherine_In_Data

最新推荐文章于 2022-10-26 11:39:37 发布

阅读量228

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/zhouwenyuan1015/article/details/106005250

版权

spark 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

1. RDD内部运行方式
(1) RDD并行操作
1）RDD每个转换并行执行
2）数据集转换惰性，即任何转换仅在调用数据集上的操作时才执行。
eg: 数据分析案例
a. 统计出某一列中不同值出现的次数
b. 选出以字母A开头的。
c. 将结果打印在屏幕上
常见可能串行执行以上步骤。Spark仅仅统计以A开头的项。并将结果但因在屏幕上。

2. 创建RDD
(1) 两种方法
1) .parallelize(…) (list或array)
2) 读取本地或外部的文件
data_from_file = sc.textFile(’/User/drabast/Documents/PySpark_Data/VS14MORT.txt.gz’
,4) , 4表示分区个数
3）支持数据格式：文本，parquet, JSON, Hive 或者JDBC驱动程序读取关系数据库。
4）Spark可自动处理压缩数据集
(2) RDD有时需要转换为DataFram:
1）当RDD进行类似表的相应操作时，都需要指定相应的函数，转换为DataFrame书写更简单，并且执行效率高。
2）并不是所有RDD都可以转换为DataFrame, 只有相似格式的RDD才可以转换为DataFrame
3）转换：
sqlContext.createDataFrame(data, schema=None, samplingRatio=None, verifySchema=True)
来将RDD转换为DataFrame，其中的参数设置需要注意：
schema：DataFrame各列类型信息，在提前知道RDD所有类型信息时设定。例如
schema = StructType([StructField(‘col1’, StringType()), StructField(‘col2’, IntegerType())])
samplingRatio：推测各列类型信息的采样比例，在未知RDD所有类型信息时，spark需要根据一定的数据量进行类型推测；
模认情况下，spark会抽取前100的RDD进行推测，之后在真正将RDD转换为DataFrame时如果遇到类型信息不符会报错
同理采样比例较低，推测类型信息也可能错误。
(3) DataFrame 转换为RDD
1）有时候DataFrame的表相关操作不能处理一些问题，例如需要对一些数据利用指定的函数进行计算时，就需要将DataFrame转换为RDD
2）转换方法：

>>> lists = [['a', 1], ['b', 2]]
>>> list_dataframe = sqlContext.createDataFrame(lists,['col1','col2'])
>>> list_dataframe.show()
+----+----+                                                                     
|col1|col2|
+----+----+
|   a|   1|
|   b|   2|
+----+----+

>>> rdd=list_dataframe.rdd
>>> rdd.collect()
[Row(col1=u'a', col2=1), Row(col1=u'b', col2=2)] 

>>> rdd.map(lambda x: [x[0], x[1:]]).collect()
[[u'a', (1,)], [u'b', (2,)]]
>>> rdd.map(lambda x: [x[0], x[1]]).collect()
[[u'a', 1], [u'b', 2]]

3. Schema

     （1）RDD是无schema的数据结构

4. 转换
RDD转换包括映射，筛选，连接，转换数据集中的值
（1） .map(…)
(2)
*

Catherine_In_Data

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark学习（2）： RDD

1. RDD内部运行方式(1) RDD并行操作1）RDD每个转换并行执行2）数据集转换惰性，即任何转换仅在调用数据集上的操作时才执行。eg: 数据分析案例a. 统计出某一列中不同值出现的次数b. 选出以字母A开头的。c. 将结果打印在屏幕上常见可能串行执行以上步骤。Spark仅仅统计以A开头的项。并将结果但因在屏幕上。2. 创建RDD(1) 两种方法1) .parallelize(…) (list或array)2) 读取本地或外部的文件data_from_file = sc.te
复制链接

扫一扫