Java中分组取TopN的问题(maptopair,sortbykey,take(3),for循环打印输出)【Java版纯代码】

分组取topN
        1).原生的集合工具Collections.sort(list,new comparator<xxx>)
        2).自己定义定长数组

原理:

给出两列数据,将第一列数据当做key,一次按照相同的key值,将value的值进行排序,获取前N个。然后打印输出。

分组取topN(3) :

原数据:

class1	100
class2	85
class3	70
class1	102
class2	65
class1	45
class2	85
class3	70
class1	16
class2	88
class1	95
class2	37
class3	98
class1	99
class2	23

代码实现,分组取top3:

package com.bjsxt.spark.others.topn;

import java.util.Iterator;
import java.util.List;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.api.java.function.VoidFunction;

import akka.util.Collections;
import scala.Tuple2;

/**
 * 
 * 思路: java:mapToPair / scala:map groupByKey class1 [100,101,88,99] List
 * Collections.sort(list) 有什么问题? 某一个key对应的value 有可能非常非常的多,放到list里面会有OOM的风险
 * 解决办法:定义一个定长的数组,通过一个简单的算法
 * 
 * @author root
 *
 */
public class GroupByKeyOps {
	public static void main(String[] args) {
		SparkConf conf = new SparkConf().setMaster("local").setAppName("TopOps");
		JavaSparkContext sc = new JavaSparkContext(conf);
		JavaRDD<String> linesRDD = sc.textFile("scores.txt");
		/**
		 * 调用mapToPair 按照分隔符进行切分
		 * 
		 */
		JavaPairRDD<String, Integer> pairRDD = linesRDD.mapToPair(new PairFunction<String, String, Integer>() {

			/**
			 * 
			 */
			private static final long serialVersionUID = 1L;

			@Override
			public Tuple2<String, Integer> call(String str) throws Exception {
				/**
				 * 
				 * 按照分隔符进行切分 获取班级splited[0]当做key的值 splited[1]为score的值,取名score
				 */
				String[] splited = str.split("\t");
				String clazzName = splited[0];
				Integer score = Integer.valueOf(splited[1]);
				/**
				 * 分别返回splited[0]为key的值 返回splited[1]为value的值,取名score
				 */
				return new Tuple2<String, Integer>(clazzName, score);
			}
		});
		/**
		 * groupByKey 按照key的值进行分组
		 */
		pairRDD.groupByKey().foreach(new VoidFunction<Tuple2<String, Iterable<Integer>>>() {

			/**
			 * 
			 */
			private static final long serialVersionUID = 1L;

			@Override
			public void call(Tuple2<String, Iterable<Integer>> tuple) throws Exception {
				String clazzName = tuple._1;
				Iterator<Integer> iterator = tuple._2.iterator();

				Integer[] top3 = new Integer[3];

				while (iterator.hasNext()) {
					Integer score = iterator.next();

					for (int i = 0; i < top3.length; i++) {
						if (top3[i] == null) {
							top3[i] = score;
							break;
							/**
							 * 第一次传进来的时候,top[0]为0 后边依次将score传入
							 */
						} else if (score > top3[i]) {
							for (int j = 2; j > i; j--) {
								/**
								 * 如果传入的数比已经传入的数大的时候,依次将之前传入的数往后挪 把刚传入的数据放在最前边top[0]的位置
								 */
								top3[j] = top3[j - 1];
							}

							top3[i] = score;
							break;
						}
					}
				}
				System.out.println("class Name:" + clazzName);
				/**
				 * 循环遍历输出
				 */
				for (Integer sscore : top3) {
					System.out.println(sscore);
				}
			}
		});
	}
}

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值