windows 环境下hadoop+spark+maven集成

最新推荐文章于 2020-11-03 15:59:55 发布

lynn-66

最新推荐文章于 2020-11-03 15:59:55 发布

阅读量385

点赞数

分类专栏： spark 文章标签： hadoop spark

本文链接：https://blog.csdn.net/wuai66/article/details/78197102

版权

spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.下载apache-maven-3.5.0-bin.tar,并设置MAVEN_HOME.

2. 下载hadoop-2.6.0.tar,并设置HADOOP_HOME.

3.POM配置。

<groupId>org.apache.spark</groupId>

<artifactId>spark-sql_2.11</artifactId>

</dependency>

<groupId>org.apache.spark</groupId>

<artifactId>spark-core_2.11</artifactId>

<scope>provided</scope>

</dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-client</artifactId>

</dependency>

<groupId>com.google.collections</groupId>

<artifactId>google-collections</artifactId>

</dependency>

4. 创建SimpleApp类。

import java.util.Arrays;
import java.util.List;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.SparkSession;

public class SimpleApp {
public static void main(String[] args) {

//local代表运行本地集群
SparkConf conf = new SparkConf().setAppName("app demo").setMaster("local");
JavaSparkContext sc = new JavaSparkContext(conf);

//文件放在工程根目录下面
JavaRDD<String> lines = sc.textFile("test.txt");
JavaRDD<Integer> lineLengths = lines.map(s -> s.length());
int totalLength = lineLengths.reduce((a, b) -> a + b);

System.out.println("length:"+totalLength);

}
}