RDD读写HDFS

最新推荐文章于 2023-03-13 10:05:21 发布

拱头

最新推荐文章于 2023-03-13 10:05:21 发布

阅读量9.2k

点赞数

分类专栏： scala spark 文章标签： scala spark

本文链接：https://blog.csdn.net/yhb315279058/article/details/50466075

版权

使用hdfs的数据存储创建RDD.

Spark的整个生态系统与Hadoop是完全兼容的,所以对于Hadoop所支持的文件类型或者数据库类型,Spark也同样支持.另外,由于Hadoop的API有新旧两个版本,所以Spark为了能够兼容Hadoop所有的版本,也提供了两套创建操作接口.对于外部存储创建操作而言,hadoopRDD和newHadoopRDD是最为抽象的两个函数接口,主要包含以下四个参数.

输入格式(InputFormat): 制定数据输入的类型,如TextInputFormat等,新旧两个版本所引用的版本分别是org.apache.hadoop.mapred.InputFormat和org.apache.hadoop.mapreduce.InputFormat(NewInputFormat)
键类型: 指定[K,V]键值对中K的类型
值类型: 指定[K,V]键值对中V的类型
分区值: 指定由外部存储生成的RDD的partition数量的最小值,如果没有指定,系统会使用默认值defaultMinSplits

其他创建操作的API接口都是为了方便最终的Spark程序开发者而设置的,是这两个接口的高效实现版本.例如,对于textFile而言,只有path这个指定文件路径的参数,其他参数在系统内部指定了默认值

兼容旧版本HadoopAPI的创建操作

	文件路径	输入格式	键类型	值类型	分区值
textFile(path: String, minPartitions: Int = defaultMinPartitions)	path	TextInputFormat	LongWritable	Text	minSplits
hadoopFile[K, V, F <: InputFormat[K, V]](path: String, minPartitions: Int) (implicit km: ClassTag[K], vm: ClassTag[V], fm: ClassTag[F]): RDD[(K, V)]	path	F	K	V	minSplits

最低0.47元/天解锁文章

拱头

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RDD读写HDFS

使用hdfs的数据存储创建RDD.Spark的整个生态系统与Hadoop是完全兼容的,所以对于Hadoop所支持的文件类型或者数据库类型,Spark也同样支持.另外,由于Hadoop的API有新旧两个版本,所以Spark为了能够兼容Hadoop所有的版本,也提供了两套创建操作接口.对于外部存储创建操作而言,hadoopRDD和newHadoopRDD是最为抽象的两个函数接口,主要包含以下四个参
复制链接

扫一扫

专栏目录