JavaSpark编写程序在linux上运行

最新推荐文章于 2024-07-24 21:35:32 发布

茂密头发的源猴

最新推荐文章于 2024-07-24 21:35:32 发布

阅读量284

点赞数

文章标签： spark

本文链接：https://blog.csdn.net/weixin_48109576/article/details/107801643

版权

Spark编写程序在linux上运行由于没有指定文件地址,和输出文件地址所以在linux中需要参数

在spark/bin/目录下 ./spark-submit --master spark://linux01:7077 --executor-memory 1g --total-executor-cores 8

--class com.51doit.spark.LambdaWordCount -jar hdfs://linux:9000/spark/wordcount.txt hdfs://linux:9000/sparkout-01

--executor-memory 1g 指定worker可用的内存大小

--total-executor-cores 8 指定worker可用的逻辑核数

--calss 全类名

-jar打好jar包,上传到linux中ctrl+p 打开sftp

其中spark已经有的jar包就不需要打了,在pom.xml文件中

<scope>provided</scope>

<!-- provided编译时运行jar包,打jar包时不会使用 -->

但是在本地编写的时候要打开,否则找不到jar包

System.setProperty("HADOOP_USER_NAME","root"); 给权限,否则会报错.

public class LambdaWordCount {
    public static void main(String[] args) {
        //获取javaSpark的conf传入Jsc

SparkConf conf = new SparkConf().setAppName("LambdaWordCount2").setMaster("local[*]");

        //将conf传入jsc中
        JavaSparkContext jsc = new JavaSparkContext(conf);
        //获取RDD大集合
        JavaRDD<String> javaRDD = jsc.textFile(args[0]);
        //使用flatMap方法拆分压平--因为java中flatMap方法返回的是iterator迭代器,所以需要将数组转成集合,在.迭代器,让返回值也是迭代器
        JavaRDD<String> words = javaRDD.flatMap(lines -> Arrays.asList(lines.split(" ")).iterator());
        //使用map方法聚合+1,形成元组,但java没有元组,所以需要调取Tuple2.apply方法转成元组形式,不能调map方法,这样就没有ReduceByKe了
        JavaPairRDD<String, Integer> wordAndOne = words.mapToPair(w -> Tuple2.apply(w, 1));
        //使用ReduceByKey,输入x+y逻辑,将相同key的values聚合
        JavaPairRDD<String, Integer> reduceWord = wordAndOne.reduceByKey((x, y) -> (x + y));
        //排序,java中排序只有SortByKey,所以需要调mapToPair方法将 key和values翻转,这样values在前,key在后
        JavaPairRDD<Integer, String> swapWords = reduceWord.mapToPair(Tuple2::swap);
        //按照调换的value进行排序,false是倒叙
        JavaPairRDD<Integer, String> sortByWord = swapWords.sortByKey(false);
        //使用mapToPair再次调换value和key
        JavaPairRDD<String, Integer> gogogo = sortByWord.mapToPair(Tuple2::swap);
        //Transformation 结束
        //Action算子，会触发任务执行
        //将数据保存到HDFS
        gogogo.saveAsTextFile(args[1]);
        jsc.stop();


    }
}

茂密头发的源猴

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
JavaSpark编写程序在linux上运行

Spark编写程序在linux上运行由于没有指定文件地址,和输出文件地址所以在linux中需要参数在spark/bin/目录下 ./spark-submit --master spark://linux01:7077--executor-memory 1g--total-executor-cores 8--class com.51doit.spark.LambdaWordCount -jar hdfs://linux:9000/spark/wordcount.txt hdfs:/...
复制链接

扫一扫