Spark----------------------SparkCore如何与HBase表(HFile)进行交互

从读取数据和写入数据两个方面:

1.写入数据:
(将结果RDD保存到HBase表中):

TableOutputFormat:
(RDD的数据变成key - value)

  • key:rowkey,ImmutableBytesWritable
  • value:Put

def saveAsNewAPIHadoopDataset(conf: Configuration): Unit
(属于PairRDDFunctions类中函数,所有RDD的类型必须是二元组)
RDD[(ImmutableBytesWritable,put)]

2.读取数据 (从HBase表中读取数据,分析数据)

TableInputFormat:
一条一条的数据读取, 每条变成key/value对:

  • key:rowkey,ImmutableBytesWritable
  • valule:Result

def newAPIHadoopRDD[K, V, F <: NewInputFormat[K, V]](
conf: Configuration = hadoopConfiguration,

  fClass: Class[F],
  kClass: Class[K],
  vClass: Class[V]): RDD[(K, V)] = withScope 

additionly:
spark序列化

  • 现象
    java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytesWritable
  • 原因
    ImmutableBytesWritable不能进行序列化(Java中,如果类需要序列化需要实现Serializable)
    解决
    spark提供2中序列化,Java序列化和Kryo序列化
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值