Spark实现单词计数(Java)
原理:
将存储字符串的普通RDD通过flatMap按照空格分割成单个的单词存储在新的RDD中,再将此RDD转化成PairRDD,单词作为键,而值全部设置为1.最后将所有键值对的value加起来,得到的数就是单词数量。
JavaRDD<String> rdd = sc.parallelize(Arrays.asList("xiaobai is a big boss", "is it right", "sure you are right"));
//每个字符串以空格切割
JavaRDD<String> rdd1 = rdd.flatMap(new FlatMapFunction<String, String>() {
@Override
public I