spark官网:http://spark.apache.org/
1.下载spark的包
spark-2.4.4-bin-hadoop2.7.tgz
2.解压压缩包
tar -xzvf spark-2.4.4-bin-hadoop2.7.tgz
3.可以选择修改压缩包的名子
mv spark-2.4.4-bin-hadoop2.7/ spark
4.运行官方示例和shell
#计算圆周率
#参数10:要计算10西,次数越大,计算的值越准确
./bin/run-example SparkPi 10
查看打印信息
5.在网页中访问spark
因为spark的网页必须只有在与运行的时候才能打开,所以把值调大一点,让spark一致运行,才能访问
./bin/run-example SparkPi 100000
访问端口号:4040
主机名:4040
web端页面
6.查看:(bin/run-example)这个sh文件
vim bin/run-example
帮助命令 --help
bin/spark-submit --help
bin/spark-shell --help
命令
# --master:这个application要提交给谁执行(大哥);local:指的就是本地
# --name:为application起了一个名字
# --class:指的就是任务的主要类在哪里(main函数所在的类)
# --jars:如果这个类的jar包要加上去
# 这个application主类要求加的参数
bin/spark-shell --master local[2] --name myPi --class org.apache.spark.examples.SparkPi --jars examples/jars/spark-examples_2.11-2.4.4.jar 100
# 在spark-submit中的--jars可以省略掉
# runexample:是一个简写;
# jar包:会自动的去examples/jars/spark-examples_2.11-2.4.4.jar中的类;
# 运行的时候是要加上包名+类名;(默认的去加载这个包下面的类,包名可以省略)();
bin/spark-submit --master local[2] --name myPi --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.4.4.jar 10
另一种写法
# --master : local[2]:2是值:指本地用2个线程
# --name : 相当于起了一个别名
# --class : 包名+l类名
# --jars可以省略不写 后面跟的是一个jar包
# \ :相当于一种换行符,另起一行
bin/spark-submit \
--master local[2] \
--name myPi \
--class org.apache.spark.examples.SparkPi \
examples/jars/spark-examples_2.11-2.4.4.jar \
10
–class 查找路径