Spark算子:RDD行动Action操作(7)–saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset

关键字:Spark算子、Spark函数、Spark RDD行动Action、Spark RDD存储操作、saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset

saveAsNewAPIHadoopFile

def saveAsNewAPIHadoopFile[F <: OutputFormat[K, V]](path: String)(implicit fm: ClassTag[F]): Unit

def saveAsNewAPIHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_ <: OutputFormat[_, _]], conf: Configuration = self.context.hadoopConfiguration): Unit

 

saveAsNewAPIHadoopFile用于将RDD数据保存到HDFS上,使用新版本Hadoop API。

用法基本同saveAsHadoopFile。

 
 
  1. import org.apache.spark.SparkConf
  2. import org.apache.spark.SparkContext
  3. import SparkContext._
  4. import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat
  5. import org.apache.hadoop.io.Text
  6. import org.apache.hadoop.io.IntWritable
  7.  
  8. var rdd1 = sc.makeRDD(Array(("A",2),("A",1),("B",6),("B",3),("B",7)))
  9. rdd1.saveAsNewAPIHadoopFile("/tmp/lxw1234/",classOf[Text],classOf[IntWritable],classOf[TextOutputFormat[Text,IntWritable]])
  10.  

saveAsNewAPIHadoopDataset

def saveAsNewAPIHadoopDataset(conf: Configuration): Unit

作用同saveAsHadoopDataset,只不过采用新版本Hadoop API。

以写入HBase为例:

 

HBase建表:

create ‘lxw1234′,{NAME => ‘f1′,VERSIONS => 1},{NAME => ‘f2′,VERSIONS => 1},{NAME => ‘f3′,VERSIONS => 1}

 

完整的Spark应用程序:

 
 
  1. package com.lxw1234.test
  2.  
  3. import org.apache.spark.SparkConf
  4. import org.apache.spark.SparkContext
  5. import SparkContext._
  6. import org.apache.hadoop.hbase.HBaseConfiguration
  7. import org.apache.hadoop.mapreduce.Job
  8. import org.apache.hadoop.hbase.mapreduce.TableOutputFormat
  9. import org.apache.hadoop.hbase.io.ImmutableBytesWritable
  10. import org.apache.hadoop.hbase.client.Result
  11. import org.apache.hadoop.hbase.util.Bytes
  12. import org.apache.hadoop.hbase.client.Put
  13.  
  14. object Test {
  15. def main(args : Array[String]) {
  16. val sparkConf = new SparkConf().setMaster("spark://lxw1234.com:7077").setAppName("lxw1234.com")
  17. val sc = new SparkContext(sparkConf);
  18. var rdd1 = sc.makeRDD(Array(("A",2),("B",6),("C",7)))
  19. sc.hadoopConfiguration.set("hbase.zookeeper.quorum ","zkNode1,zkNode2,zkNode3")
  20. sc.hadoopConfiguration.set("zookeeper.znode.parent","/hbase")
  21. sc.hadoopConfiguration.set(TableOutputFormat.OUTPUT_TABLE,"lxw1234")
  22. var job = new Job(sc.hadoopConfiguration)
  23. job.setOutputKeyClass(classOf[ImmutableBytesWritable])
  24. job.setOutputValueClass(classOf[Result])
  25. job.setOutputFormatClass(classOf[TableOutputFormat[ImmutableBytesWritable]])
  26. rdd1.map(
  27. x => {
  28. var put = new Put(Bytes.toBytes(x._1))
  29. put.add(Bytes.toBytes("f1"), Bytes.toBytes("c1"), Bytes.toBytes(x._2))
  30. (new ImmutableBytesWritable,put)
  31. }
  32. ).saveAsNewAPIHadoopDataset(job.getConfiguration)
  33. sc.stop()
  34. }
  35. }
  36.  

注意:保存到HBase,运行时候需要在SPARK_CLASSPATH中加入HBase相关的jar包。

可参考:http://lxw1234.com/archives/2015/07/332.htm

 

更多关于Spark算子的介绍,可参考 Spark算子系列文章 :

http://lxw1234.com/archives/2015/07/363.htm

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值