2020-10-24SPARK及数据爬取、分析、挖掘与可视化

本文介绍了如何搭建Spark集群,包括配置文件、同步与启动步骤。接着展示了编程爬取学习网站题目,重点讲解了电力数据的分析与挖掘,包括数据转置、异常处理、统计量计算等。最后探讨了股票数据的可视化,包括价格走势、交易量分布和月交易量饼图的绘制。
摘要由CSDN通过智能技术生成

SPARK及数据爬取、分析、挖掘与可视化 

  • 大数据平台组件搭建。

(1)解压安装包到/usr/local下。

tar -zxf /opt/spark-1.6.3-bin-hadoop2.6.tgz -C /usr/local

(2)进入/usr/local/spark-1.6.3-bin-hadoop2.6/conf。

cd /usr/local/spark-1.6.3-bin-hadoop2.6/conf

(3)配置spark-env.sh文件,复制spark-env.sh.template文件,重命名为spark-env.sh。

cp spark-env.sh.template spark-env.sh

# 在文件末尾配置如下内容:

export JAVA_HOME=/usr/lib/jvm/java

export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop/

export SPARK_MASTER_IP=master

export SPARK_MASTER_PORT=7077

export SPARK_WORKER_MEMORY=512m

export SPARK_WORKER_CORES=1

export SPARK_EXECUTOR_MEMORY=512m

export SPARK_EXECUTOR_CORES=1

export SPARK_WORKER_INSTANCES=1

(4)配置slaves文件,复制slaves.template文件,重命名为slaves。

cp slaves.template slaves

# 在文件中配置如下内容:

slave1

slave2

(5)配置spark-defaults.conf文件,复制spark-defaults.conf.template文件,重命名为spark-defaults.conf。

cp spark-defaults.conf.template spark-defaults.conf

# 在配置文件中添加如下内容:

spark.master                    spark://master:7077

spark.eventLog.enabled           true

spark.eventLog.dir               hdfs://master:8020/spark-logs

spark.history.fs.logDirectory       hdfs://master:8020/spark-logs

(6)将配置好的Spark目录同步到子节点。

scp -r /usr/local/spark-1.6.3-bin-hadoop2.6/ slave1:/usr/local

scp -r /usr/local/spark-1.6.3-bin-hadoop2.6/ slave2:/usr/local

更改目录名称之后的:

scp -r /usr/local/spark/ slave1:/usr/local

scp -r /usr/local/spark/ slave2:/usr/local

如果不行可以尝试,加上:root@

(7)创建spark-logs目录

hdfs dfs -mkdir /spark-logs

(8)修改环境变量,在各节点的/etc/profile下添加Spark对应路径。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值