Spark Core
rong_code
这个作者很懒,什么都没留下…
展开
-
Spark常用Transformations算子(一)
介绍以下Transformations算子:mapflatMapmapPartitionsmapPartitionsWithIndexfiltersampleunionintersectionsortBysortByKeygroupByKeyreduceByKeydistinctcoalescerepartition(1) map、mapPartitions、ma...原创 2019-03-08 17:19:30 · 212 阅读 · 0 评论 -
Spark常用Transformations算子(二)
介绍以下Transformations算子:joincogroupcartesianpiperepartitionAndSortWithinPartitionsglomrandomSplitzipzipWithIndexzipWithUniqueId(2) joinobject JoinTest { def main(args: Array[String]): ...原创 2019-03-08 17:21:20 · 127 阅读 · 0 评论 -
Spark常用Actions算子
介绍以下Actions算子:foreachforeachPatitionreducecollectcountfirsttaketakeSampletoptakeOrderedsaveAsTextFilesaveAsSequenceFilesaveAsObjectFilecountByKeycountByValueaggregate(1) foreach、fore...原创 2019-03-08 17:22:28 · 391 阅读 · 0 评论 -
Spark经典案例之数据去重
/**业务场景:数据去重问题 Created by YJ on 2017/2/7. 统计数据,尽量用reduceByKey,不要用groupByKey,优化点 reduceByKey,在本机suffle后,再发送一个总map,发送到一个总机器上汇总,(汇总要压力小) groupByKey,发送本机所有的map,在一个机器上汇总(汇总压力大)/ /数据格式flie1:2012-3...原创 2019-03-08 17:23:51 · 2383 阅读 · 0 评论 -
Spark经典案例之数据排序
业务场景:数据排序1、”数据排序”是许多实际任务执行时要完成的第一项工作,比如学生成绩评比、数据建立索引等。这个实例和数据去重类似,都是先对原始数据进行初步处理,为进一步的数据操作打好基础。1)、需求描述对输入文件中数据进行排序。输入文件中的每行内容均为一个数字,即一个数据。要求在输出中每行有两个间隔的数字,其中,第一个代表原始数据在原始数据集中的位次,第二个代表原始数据。2)输入...原创 2019-03-08 17:24:55 · 1421 阅读 · 0 评论 -
Spark经典案例之求平均值,最大最小值,求top值,非结构数据处理,统计每天新增用户数
1、需求分析对输入文件中数据进行就算学生平均成绩。输入文件中的每行内容均为一个学生的姓名和他相应的成绩,如果有多门学科,则每门学科为一个文件。要求在输出中每行有两个间隔的数据,其中,第一个代表学生的姓名,第二个代表其平均成绩。2、原始数据1)math:张三,88李四,99王五,66赵六,772)china:张三,78李四,89王五,96赵六,673)english...原创 2019-03-08 17:29:55 · 3800 阅读 · 0 评论