Spark编程基础

一、创建RDD

        1.从内存中创建RDD

                (1)parallelize()方法

                (2)makeRDD()方法

二、从外部存储系统中读取数据创建RDD        

    

        通过SparkContext对象的textFile()方法读取数据集。

使用map()方法转换数据

使用sortBy()方法进行排序

使用collect()方法查询数据

使用flatMap()方法转换数据

使用take()方法查询某几个值

使用union()方法合并多个RDD

使用filter()方法进行过滤

使用distinct()方法进行去重

使用简单的集合操作

        intersection()方法

        subtract()方法

        cartesian()方法

       

创建键值对RDD

        

        使用键值对的keys方法和values方法

        使用键值对RDD的reduceByKey()方法

        使用键值对RDD的groupByKey()方法

连接两个RDD

        join()方法

        rightOuterJoin()方法

        leftOuterJoin()方法

        fullOuterJoin()方法

       

使用zip()方法组合两个RDD

使用combineByKey()方法合并相同键的值

使用lookup()方法查找指定键的值

  • 10
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值