SPARK及数据爬取、分析、挖掘与可视化
- 大数据平台组件搭建。
(1)解压安装包到/usr/local下。
tar -zxf /opt/spark-1.6.3-bin-hadoop2.6.tgz -C /usr/local |
(2)进入/usr/local/spark-1.6.3-bin-hadoop2.6/conf。
cd /usr/local/spark-1.6.3-bin-hadoop2.6/conf |
(3)配置spark-env.sh文件,复制spark-env.sh.template文件,重命名为spark-env.sh。
cp spark-env.sh.template spark-env.sh # 在文件末尾配置如下内容: export JAVA_HOME=/usr/lib/jvm/java export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop/ export SPARK_MASTER_IP=master export SPARK_MASTER_PORT=7077 export SPARK_WORKER_MEMORY=512m export SPARK_WORKER_CORES=1 export SPARK_EXECUTOR_MEMORY=512m export SPARK_EXECUTOR_CORES=1 export SPARK_WORKER_INSTANCES=1 |
(4)配置slaves文件,复制slaves.template文件,重命名为slaves。
cp slaves.template slaves # 在文件中配置如下内容: slave1 slave2 |
(5)配置spark-defaults.conf文件,复制spark-defaults.conf.template文件,重命名为spark-defaults.conf。
cp spark-defaults.conf.template spark-defaults.conf # 在配置文件中添加如下内容: spark.master spark://master:7077 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/spark-logs spark.history.fs.logDirectory hdfs://master:8020/spark-logs |
(6)将配置好的Spark目录同步到子节点。
scp -r /usr/local/spark-1.6.3-bin-hadoop2.6/ slave1:/usr/local scp -r /usr/local/spark-1.6.3-bin-hadoop2.6/ slave2:/usr/local 更改目录名称之后的: scp -r /usr/local/spark/ slave1:/usr/local scp -r /usr/local/spark/ slave2:/usr/local 如果不行可以尝试,加上:root@ |
(7)创建spark-logs目录
hdfs dfs -mkdir /spark-logs |
(8)修改环境变量,在各节点的/etc/profile下添加Spark对应路径。