1.idea上运行
val conf = new SparkConf().setAppName("SparkRDDWordCount")
.setMaster("local[*]") //设置本地模式,用尽可能多的cpu
2.yarn
yarn模式分client客户端模式和cluster集群模式
测试可以用client模式
生产环境用cluster模式
yarn模式运行spark,可以不用启动spark集群。这是与standalone模式的一个区别。
还有查看运行的日志端口不同,yarn是在8088端口
http://node01:8088/cluster
// yarn+cluter 模式
bin/spark-submit \
--class org.example.WordCount \
--master yarn \ // yarn模式提交
--deploy-mode cluster \ //cluster模式
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 1 \
./examples/jars/spark_submit-1.0-SNAPSHOT.jar
// yarn+client 模式
bin/spark-submit \
--class org.example.WordCount \
--master yarn \ // yarn模式提交
--deploy-mode client \ //client模式
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 1 \
./examples/jars/spark_submit-1.0-SNAPSHOT.jar
3.standalone模式
需要启动spark集群,用的是spark自己的资源调度系统。
standalone的提交命令与yarn不同的是 --master 后面的参数不一样,其他一样
查看运行日志http://node01:8080
// standalone+cluter 模式
bin/spark-submit \
--class org.example.WordCount \
--master spark://node01:7077 \ // spark的集群地址
--deploy-mode cluster \ //cluster模式
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 1 \
./examples/jars/spark_submit-1.0-SNAPSHOT.jar
// standalone+client 模式
bin/spark-submit \
--class org.example.WordCount \
--master spark://node01:7077 \ // spark的集群地址
--deploy-mode client \ //cluster模式
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 1 \
./examples/jars/spark_submit-1.0-SNAPSHOT.jar