史上最简单的spark教程第五章-阶段性总结SparkJavaApi,RDD分布式数据集

25 篇文章 10 订阅
24 篇文章 32 订阅
spark+Java阶段性总结

史上最简单的spark教程
所有代码示例地址:https://github.com/Mydreamandreality/sparkResearch

(提前声明:文章由作者:张耀峰 结合自己生产中的使用经验整理,最终形成简单易懂的文章,写作不易,转载请注明)
(文章参考:Elasticsearch权威指南,Spark快速大数据分析文档,Elasticsearch官方文档,实际项目中的应用场景)
(帮到到您请点点关注,文章持续更新中!)
Git主页 https://github.com/Mydreamandreality


  • 常见的转换操作
  • 案例数据 {1,2,3,3}
函数名称目的示例结果
map()返回RDD中的所有元素RDD.map(){1,2,3,3}
filter()将RDD中满足该函数的元素放入新RDD中返回RDD.filter(equals 1){1}
flatMap()返回个体的RDD元素RDD.flatMap(){1},{2},{3},{3}

  • 常见的行动操作
  • 案例数据 {1,2,3,3}
函数名称目的示例结果
collect()返回RDD中的所有元素RDD.collect()){1,2,3,3}
count()返回RDD的总数RDD.count(){4}
countByVlue()返回RDD元素出现的总数RDD.countByValue(){1,1},{2,1},{3,2}
countByKey())返回RDD元素出现的总数RDD.countByValue(){1,1},{2,1},{3,2}
take(num)返回RDD中的num个元素RDD.take(3){1,2,3}
top(num)返回排序后的前num个元素RDD.top(2){3,3}
takeordered(num)返回排序后的前num个元素RDD.takeOrdered(2, new Comparator(){3,3}
reduce()并行整合RDD中的所有元素RDD.reduce((x, y) => x + y){9}
spark的核心概念之一:RDD
RDD的操作分为两种
转换操作
转化操作RDD是惰性求值
行动操作
返回非RDD的新元素
RDD的缓存策略:
persist方法或cache方法可以将前面的计算结果缓存

如果您看到这里,那么Spark的核心基础概念已经全部掌握
但是在真实开发中,数据大多都是JSON的数据格式
我们之前的所有案例都是基于行数据进行测试的
故 这章之后,就开始编写spark中键值对形式的RDD操作
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值