史上最简单的spark教程第五章-阶段性总结SparkJavaApi,RDD分布式数据集

最新推荐文章于 2021-11-08 22:36:11 发布

置顶李时珍皮啊

最新推荐文章于 2021-11-08 22:36:11 发布

阅读量3.2k

点赞数 2

分类专栏： # 大数据 # spark 拥抱大数据文章标签：大数据

本文链接：https://blog.csdn.net/youbitch1/article/details/88637851

版权

拥抱大数据同时被 3 个专栏收录

28 篇文章 11 订阅

订阅专栏

大数据

25 篇文章 10 订阅

订阅专栏

spark

24 篇文章 32 订阅

订阅专栏

spark+Java阶段性总结

史上最简单的spark教程
所有代码示例地址:https://github.com/Mydreamandreality/sparkResearch

(提前声明:文章由作者:张耀峰结合自己生产中的使用经验整理,最终形成简单易懂的文章,写作不易,转载请注明)
(文章参考:Elasticsearch权威指南,Spark快速大数据分析文档,Elasticsearch官方文档,实际项目中的应用场景)
(帮到到您请点点关注,文章持续更新中!)
Git主页 https://github.com/Mydreamandreality

常见的转换操作
案例数据 {1,2,3,3}

函数名称	目的	示例	结果
map()	返回RDD中的所有元素	RDD.map()	{1,2,3,3}
filter()	将RDD中满足该函数的元素放入新RDD中返回	RDD.filter(equals 1)	{1}
flatMap()	返回个体的RDD元素	RDD.flatMap()	{1},{2},{3},{3}

常见的行动操作
案例数据 {1,2,3,3}

函数名称	目的	示例	结果
collect()	返回RDD中的所有元素	RDD.collect())	{1,2,3,3}
count()	返回RDD的总数	RDD.count()	{4}
countByVlue()	返回RDD元素出现的总数	RDD.countByValue()	{1,1},{2,1},{3,2}
countByKey())	返回RDD元素出现的总数	RDD.countByValue()	{1,1},{2,1},{3,2}
take(num)	返回RDD中的num个元素	RDD.take(3)	{1,2,3}
top(num)	返回排序后的前num个元素	RDD.top(2)	{3,3}
takeordered(num)	返回排序后的前num个元素	RDD.takeOrdered(2, new Comparator()	{3,3}
reduce()	并行整合RDD中的所有元素	RDD.reduce((x, y) => x + y)	{9}