文章适合新手了解Spark打包的两种情况以及对应参数。文章在编写过程中难免有疏漏和错误,欢迎大佬指出文章的不足之处;更多内容请点进👉 Lino_White 👈查看。
未来的世界充满着各式各样的数据,我们该怎么好好利用起来呢?开启正文吧~~~
Spark打包运行(本地、yarn)
//本地
spark-submit --class com.white.sai2020.test1
--master local[*] ./test_spark.jar
spark-submit --class com.white.test1 --master yarn
--driver-memory 4g --deploy-mode cluster
--executor-memory 2g --executor-cores 1
--queue thequeue ./ a.jar 10
–deploy-mode(cluster、client)两种模式的区别
cluster模式: Driver程序在YARN中运行,应用的运行结果不能在客户端显示,所以最好运行那些将结果最终保存在外部存储介质(如HDFS、Redis、Mysql)而非stdout输出的应用程序,客户端的终端显示的仅是作为YARN的job的简单运行状况。
client模式: Driver运行在Client上,应用程序运行结果会在客户端显示,所有适合运行结果有输出的应用程序(如spark-shell)